Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Teoriden pratiğe, geniş dil modeli Yüksek Lisans'ın tam formu nasıl görünüyor?
Birçok kişi bunun derin bir doğal dil anlayışına dayandığını söyleyebilir ancak OpenAI'nin GPT serisi bu konuda zaten iyi bir iş çıkardı. Bazı insanlar AI Agent'ın pratik olasılığını da tartışıyor, ancak şu anda bu tartışma doğal dil işlemenin kapsamından kopmuyor.
Üretken yapay zeka aslında iki yönü içerir. Bunlardan biri, insan dilini anlamaya odaklanan geniş dil modelidir. Daha geniş kapsamlı olan AIGC uygulaması aslında yayılma modeli tarafından temsil edilen çapraz modlar dönüştürme yeteneğini ifade eder. Vincent olarak da bilinir. resimler, Vincent videoları vb.
Peki ikisini birleştirmeye ne dersiniz? Birçok insanın gözünde bu aslında GPT'nin yeni nesli veya GPT'nin bütünüyle nasıl görüneceği. Singapur Ulusal Üniversitesi Bilgisayar Okulu'ndan yakın zamanda ön baskı web sitesi arxiv'de yayınlanan bir makale insanların dikkatini çekti çünkü bu makalede tasarlanan NExT-GPT modeli kapsamlı modal dönüşüm gerçekleştirmeye çalışıyor.
Yukarıdaki şekilden NExT-GPT modelinin giriş ve çıkış uçlarının metin, resim, ses ve video dahil olmak üzere çeşitli modal formlar oluşturabildiğini görebiliriz. Çıkış ucu, metin dışındaki farklı modlara karşılık gelen yayılma modellerini kullanır. Giriş ve çıkış arasındaki medya dönüşümü büyük modellere dayanır.
NExT-GPT modelinin tarzı aslında yalnızca üretken yapay zekanın iki gücünü birleştirmeye çalışan insanların mevcut eğilimine uymakla kalmıyor: büyük dil modelleri ve yayılma modelleri, hatta bir dereceye kadar insan sezgisine de uyuyor: insan beyni, Birden fazla yöntemin ücretsiz dönüştürülmesi ve etkileşimli anlaşılması yoluyla dünyayı anlayın.
Çok modlu dönüştürme ve geniş dil modeli yeteneklerinin sözde birleşiminin, birbirleri arasında "köprü kurmanın" basit bir yolu olmadığını, çok modlu verileri (vektörleri) dille gerçek anlamda birleştirmenin yolu olduğunu özellikle belirtmekte fayda var. Bu süreç tamamen düzeldikten sonra, büyük modellerin yalnızca insan dilini öğrenip anlayabileceği değil, aynı zamanda bu yeteneği daha fazla modaliteye genişletebileceği anlamına gelir. Bu kombinasyon başarılı olduğunda, yapay zeka yeteneklerinde niteliksel bir sıçrama meydana gelecektir.
NExT-GPT yapısına genel bakış:
İki Kırılma Noktası
Hem Google'ın hem de OpenAI'nin GPT5'inin benzer araştırmalar yürüttüğü söyleniyor. Bundan önce öncelikle NExT-GPT modelinin bunu nasıl yaptığına bir göz atalım.
Genel olarak NExT-GPT modeli, büyük bir modeli çok modlu bir adaptöre ve bir difüzyon modeli kod çözücüye, projeksiyon katmanında yalnızca %1 parametre ayarlamasıyla bağlar. Makalenin yeniliği, MosIT adı verilen modal anahtarlama ayarlama talimatının ve özellikle modlar arası anahtarlamaya yönelik bir veri setinin oluşturulmasıdır.
Özellikle, NExT-GPT üç katmandan oluşur: İlk katman, çeşitli olgun kodlayıcıların çeşitli modal girdileri kodlaması ve ardından projeksiyon katmanı aracılığıyla büyük bir dil modeli tarafından anlaşılabilecek bir forma eşlenmesidir. İkinci katman, akıl yürütme için kullanılan açık kaynaklı büyük dil modelidir. Büyük dil modelinin yalnızca metin üretmekle kalmayıp aynı zamanda kod çözme katmanına belirli modal içerik çıktısı vermesi talimatını verecek benzersiz bir etiket de ürettiğini belirtmekte fayda var. Üçüncü katman bu komut sinyallerini yansıtır ve farklı kodlayıcılara karşılık gelen içeriği üretir.
Maliyetleri azaltmak için NExT-GPT kullanıma hazır kodlayıcılar ve kod çözücüler kullanır. NExT-GPT, içeriği farklı modalitelere dönüştürürken oluşan "gürültüyü" en aza indirmek için modlar arası birleştirilmiş kodlama olan ImageBind'i kullanır. NExT-GPT'nin birçok heterojen modal kodlayıcıyı yönetmesine gerek kalmaması için farklı modaliteleri büyük bir dil modeline eşit şekilde yansıtabilmesi için kodlayıcı.
Çıkış aşamasına gelince, NExT-GPT, görüntü üretimi için kararlı difüzyon, video üretimi için Zeroscope ve ses sentezi için AudioLDM dahil olmak üzere çeşitli olgun modelleri kapsamlı bir şekilde kullanıyor. Aşağıdaki şekil makaledeki akıl yürütme sürecinin bir parçasıdır. Metin kalıplarının ve sinyal işaretleyicilerinin modalitelerin nasıl tanındığını, tetiklendiğini ve oluşturulduğunu belirlediğini görebilirsiniz. Gri kısımlar tetiklenmeyen mod seçenekleridir.
Bu, farklı kiplikler arasındaki anlamsal anlayış sorununu içerir, dolayısıyla hizalama çok önemlidir. Bununla birlikte, nispeten net yapı nedeniyle NExT-GPT'nin hizalanmasının çalıştırılması aslında çok kolaydır. Yazar üç katmanlı bir bağlantı yapısı tasarladı. Kodlama ucu merkez olarak büyük modelle hizalanır ve kod çözme ucu talimatlarla hizalanır. Bu hizalama, dağıtım modeli ile büyük dil modeli arasında tam ölçekli bir hizalama işlemi gerçekleştirmeyi ortadan kaldırır ve bunun yerine yalnızca bir metin koşullu kodlayıcı kullanır.Büyük model deseni sinyal işaretçileri ile dağıtım modeli metni arasındaki mesafeyi en aza indirdikten sonra, hizalama yalnızca Saf metne dayalı olarak bu hizalama çok hafiftir ve parametrelerin yalnızca yaklaşık %1'inin ayarlanması gerekir.
NExT-GPT'nin modaliteler arasında doğru bir şekilde oluşturma ve akıl yürütme yeteneğine sahip olma ihtiyacı göz önüne alındığında, bu makale aynı zamanda Modalite Değiştirme Talimatı Ayarlaması olan MosIT'i de tanıtmaktadır. Eğitimi, 5.000 yüksek kaliteli örnekten oluşan bir veri setine dayanmaktadır.
Spesifik eğitim süreci biraz karmaşıktır, bu yüzden ayrıntılara girmeyeceğim.Genel olarak konuşursak, MosIT giriş ve çıkış metin içeriğini yeniden yapılandırabilir, böylece NExT-GPT metin, resim, video ve seslerin çeşitli mod kombinasyonlarını iyi anlayabilir insanın anlama ve muhakeme tarzına çok yakın olan karmaşık talimatlar.
**Mükemmellik mi geliyor? **
Şu anda NExT-GPT'nin hala birçok zayıf noktası var. Yazar ayrıca makalesinde bunların çoğundan bahsetmiştir. Örneğin, dört yöntemin gerçek bir çok modlu tam büyük için hala biraz fazla olduğunu düşünmek çok kolaydır. Model BSTB Eğitimi Veri setlerinin sayısı da sınırlıdır.
Ayrıca yazar, farklı boyutlardaki geniş dil modelleri aracılığıyla NExT-GPT'yi daha fazla senaryoya uyarlamak için de yoğun bir şekilde çalışıyor.
Bir diğer çetrefilli konu ise boyuttan daha pratiktir. NExT-GPT çok modlu yetenekler için güçlü beklentiler gösterse de, yayılma modeli tarafından temsil edilen mevcut AIGC yetenekleri seviyesi hala sınırlıdır ve bu da tüm NExT-GPT'nin performansını etkilemektedir.
Genel olarak çok modlu yapay zeka, uygulama senaryoları ve kullanıcı ihtiyaçları ile daha yakından entegre olduğu için çok çekici beklentilere sahiptir.Büyük modelli parçaların mevcut popülaritesinin biraz azalmasıyla, çok modlu yapay zeka insanlara büyük bir hayal gücü alanı sağlar. Uçtan uca çok modlu büyük bir model olarak NExT-GPT, aslında çok modlu yapay zekanın prototipine sahiptir. Parametre ayarlama hizalaması ve model akıl yürütme yeteneklerini geliştirmek için MosIT'in kullanılmasıyla ilgili makaledeki fikirler etkileyicidir, bu nedenle şunları yapabiliriz: Hatta birinin yapay zekayı tamamlamaya yönelik ilk adımı zaten attığı bile söylenebilir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Birisi zaten OpenAI için GPT-5'i geliştirdi mi?
Orijinal kaynak: GenAI Yeni Dünya
Yazar|Xue LiangNeil
Teoriden pratiğe, geniş dil modeli Yüksek Lisans'ın tam formu nasıl görünüyor?
Birçok kişi bunun derin bir doğal dil anlayışına dayandığını söyleyebilir ancak OpenAI'nin GPT serisi bu konuda zaten iyi bir iş çıkardı. Bazı insanlar AI Agent'ın pratik olasılığını da tartışıyor, ancak şu anda bu tartışma doğal dil işlemenin kapsamından kopmuyor.
Üretken yapay zeka aslında iki yönü içerir. Bunlardan biri, insan dilini anlamaya odaklanan geniş dil modelidir. Daha geniş kapsamlı olan AIGC uygulaması aslında yayılma modeli tarafından temsil edilen çapraz modlar dönüştürme yeteneğini ifade eder. Vincent olarak da bilinir. resimler, Vincent videoları vb.
Peki ikisini birleştirmeye ne dersiniz? Birçok insanın gözünde bu aslında GPT'nin yeni nesli veya GPT'nin bütünüyle nasıl görüneceği. Singapur Ulusal Üniversitesi Bilgisayar Okulu'ndan yakın zamanda ön baskı web sitesi arxiv'de yayınlanan bir makale insanların dikkatini çekti çünkü bu makalede tasarlanan NExT-GPT modeli kapsamlı modal dönüşüm gerçekleştirmeye çalışıyor.
NExT-GPT modelinin tarzı aslında yalnızca üretken yapay zekanın iki gücünü birleştirmeye çalışan insanların mevcut eğilimine uymakla kalmıyor: büyük dil modelleri ve yayılma modelleri, hatta bir dereceye kadar insan sezgisine de uyuyor: insan beyni, Birden fazla yöntemin ücretsiz dönüştürülmesi ve etkileşimli anlaşılması yoluyla dünyayı anlayın.
Çok modlu dönüştürme ve geniş dil modeli yeteneklerinin sözde birleşiminin, birbirleri arasında "köprü kurmanın" basit bir yolu olmadığını, çok modlu verileri (vektörleri) dille gerçek anlamda birleştirmenin yolu olduğunu özellikle belirtmekte fayda var. Bu süreç tamamen düzeldikten sonra, büyük modellerin yalnızca insan dilini öğrenip anlayabileceği değil, aynı zamanda bu yeteneği daha fazla modaliteye genişletebileceği anlamına gelir. Bu kombinasyon başarılı olduğunda, yapay zeka yeteneklerinde niteliksel bir sıçrama meydana gelecektir.
NExT-GPT yapısına genel bakış:
İki Kırılma Noktası
Hem Google'ın hem de OpenAI'nin GPT5'inin benzer araştırmalar yürüttüğü söyleniyor. Bundan önce öncelikle NExT-GPT modelinin bunu nasıl yaptığına bir göz atalım.
Genel olarak NExT-GPT modeli, büyük bir modeli çok modlu bir adaptöre ve bir difüzyon modeli kod çözücüye, projeksiyon katmanında yalnızca %1 parametre ayarlamasıyla bağlar. Makalenin yeniliği, MosIT adı verilen modal anahtarlama ayarlama talimatının ve özellikle modlar arası anahtarlamaya yönelik bir veri setinin oluşturulmasıdır.
Özellikle, NExT-GPT üç katmandan oluşur: İlk katman, çeşitli olgun kodlayıcıların çeşitli modal girdileri kodlaması ve ardından projeksiyon katmanı aracılığıyla büyük bir dil modeli tarafından anlaşılabilecek bir forma eşlenmesidir. İkinci katman, akıl yürütme için kullanılan açık kaynaklı büyük dil modelidir. Büyük dil modelinin yalnızca metin üretmekle kalmayıp aynı zamanda kod çözme katmanına belirli modal içerik çıktısı vermesi talimatını verecek benzersiz bir etiket de ürettiğini belirtmekte fayda var. Üçüncü katman bu komut sinyallerini yansıtır ve farklı kodlayıcılara karşılık gelen içeriği üretir.
Maliyetleri azaltmak için NExT-GPT kullanıma hazır kodlayıcılar ve kod çözücüler kullanır. NExT-GPT, içeriği farklı modalitelere dönüştürürken oluşan "gürültüyü" en aza indirmek için modlar arası birleştirilmiş kodlama olan ImageBind'i kullanır. NExT-GPT'nin birçok heterojen modal kodlayıcıyı yönetmesine gerek kalmaması için farklı modaliteleri büyük bir dil modeline eşit şekilde yansıtabilmesi için kodlayıcı.
Çıkış aşamasına gelince, NExT-GPT, görüntü üretimi için kararlı difüzyon, video üretimi için Zeroscope ve ses sentezi için AudioLDM dahil olmak üzere çeşitli olgun modelleri kapsamlı bir şekilde kullanıyor. Aşağıdaki şekil makaledeki akıl yürütme sürecinin bir parçasıdır. Metin kalıplarının ve sinyal işaretleyicilerinin modalitelerin nasıl tanındığını, tetiklendiğini ve oluşturulduğunu belirlediğini görebilirsiniz. Gri kısımlar tetiklenmeyen mod seçenekleridir.
NExT-GPT'nin modaliteler arasında doğru bir şekilde oluşturma ve akıl yürütme yeteneğine sahip olma ihtiyacı göz önüne alındığında, bu makale aynı zamanda Modalite Değiştirme Talimatı Ayarlaması olan MosIT'i de tanıtmaktadır. Eğitimi, 5.000 yüksek kaliteli örnekten oluşan bir veri setine dayanmaktadır.
**Mükemmellik mi geliyor? **
Şu anda NExT-GPT'nin hala birçok zayıf noktası var. Yazar ayrıca makalesinde bunların çoğundan bahsetmiştir. Örneğin, dört yöntemin gerçek bir çok modlu tam büyük için hala biraz fazla olduğunu düşünmek çok kolaydır. Model BSTB Eğitimi Veri setlerinin sayısı da sınırlıdır.
Ayrıca yazar, farklı boyutlardaki geniş dil modelleri aracılığıyla NExT-GPT'yi daha fazla senaryoya uyarlamak için de yoğun bir şekilde çalışıyor.
Bir diğer çetrefilli konu ise boyuttan daha pratiktir. NExT-GPT çok modlu yetenekler için güçlü beklentiler gösterse de, yayılma modeli tarafından temsil edilen mevcut AIGC yetenekleri seviyesi hala sınırlıdır ve bu da tüm NExT-GPT'nin performansını etkilemektedir.
Genel olarak çok modlu yapay zeka, uygulama senaryoları ve kullanıcı ihtiyaçları ile daha yakından entegre olduğu için çok çekici beklentilere sahiptir.Büyük modelli parçaların mevcut popülaritesinin biraz azalmasıyla, çok modlu yapay zeka insanlara büyük bir hayal gücü alanı sağlar. Uçtan uca çok modlu büyük bir model olarak NExT-GPT, aslında çok modlu yapay zekanın prototipine sahiptir. Parametre ayarlama hizalaması ve model akıl yürütme yeteneklerini geliştirmek için MosIT'in kullanılmasıyla ilgili makaledeki fikirler etkileyicidir, bu nedenle şunları yapabiliriz: Hatta birinin yapay zekayı tamamlamaya yönelik ilk adımı zaten attığı bile söylenebilir.