‘The Common Pile v0.1’: Yapay Zeka Eğitiminde Yeni Bir Dönem
Yapay zeka modellerini eğitmek için EleutherAI tarafından yayınlanan 8 terabaytlık ‘The Common Pile v0.1’ adlı veri seti, lisanslı ve kamuya açık metinlerden oluşuyor. Bu veri seti, yapay zeka alanında önemli bir dönüm noktası olabilir.
EleutherAI, büyük yapay zeka şirketlerinin telif hakkı davalarıyla karşı karşıya kalmaması adına ‘The Common Pile v0.1’ veri setini geliştirdi. Bu veri seti, Hugging Face ve GitHub platformlarından indirilebilirken, içeriğinde 300.000 kamuya açık kitabın dijitalleştirilmiş verileri bulunuyor.
Yönetici direktör Stella Biderman, telif hakkı davalarının şirketlerin şeffaflığını azalttığını ve yapay zeka araştırmalarına zarar verdiğini belirtti. Bu nedenle EleutherAI, lisanslı verilerle geliştirilen Comma v0.1-1T ve Comma v0.1-2T adlı iki yeni yapay zeka modeli oluşturarak veri setinin etkinliğini kanıtladı.
EleutherAI’nin geliştirdiği bu modeller, telifli verilerle eğitilen popüler yapay zeka modelleriyle başarılı bir rekabet sergiliyor. Biderman, yasal kaynaklarla yüksek kaliteli yapay zeka modelleri geliştirilebileceğini vurgulayarak, lisanssız metinlerin performansı artırdığı yönündeki yaygın kanının haksız olduğunu belirtiyor.