Yeni modelim GemmaTR-WikiQA-4bit, Türkçe dilinde eğitilmiş 27 milyar parametreli bir yapay zeka modeli! Model, kişisel bilgisayarlarda kullanılabilmesi için 4-bit quantize edildi ve 16GB GPU'ya sahip bilgisayarlarda iyi performans sergiliyor. Normalde bu modeli kullanabilmek için 60GB GPU gereksinimi vardı, ancak 4-bit quantize edilmesi sayesinde bu gereksinim düşürüldü. Eğitim için ise en az 80GB GPU göz önünde bulundurulmalı.

Bu model, 1,937,069 Türkçe Vikipedi soru-cevap verisinden 1.7 epoch boyunca eğitildi ve gelişmeye devam ediyor. Aşağıdaki linklerden modelin detaylarına erişebilirsiniz:

https://huggingface.co/cenkersisman/GemmaTR-WikiQA-4bit-GGUF
https://ollama.com/cenker/GemmaTR-WikiQA-4bit
Ayrıca, Türkçe dilinde bilinen diğer açık kaynak modelleri de göz önünde bulundurursak:

YTU: ytu-ce-cosmos/Turkish-Llama-8b-Instruct-v0.1 – 8 milyar parametre
Boğaziçi Üniversitesi: boun-tabi-LMG/TURNA– 1.14 milyar parametre
Türkcell: TURKCELL/Turkcell-LLM-7b-v1 – 7 milyar parametre
Trendyol: Trendyol/Trendyol-LLM-7b-chat-v1.0 – 7 milyar parametre

Amacım GemmaTR-WikiQA-4bit ile Türkçe NLP dünyasına önemli bir katkı sağlamak! Devamı geliyor.

cenkersisman/GemmaTR-WikiQA-4bit-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.
BeğenFavori PaylaşYorum yap
Önceki yorumları gör 12 / 13

https://huggingface.co/cenkersisman/gpt2-turkish-256-token
Aşağıdaki yazıyı bir ay önce yayınlamıştım. Şu anda kayıp değeri 1.68 den 1.60 seviyelerine düştü. Eğitim devam ediyor. Üretilen cevaplardaki düzelme artık hissedilmeye başladı. "Türkiye'nin en büyük şehirleri" ile başlayan cümle kur dediğimde eğitimin başlarında sadece birkaç şehir sayabilirken şimdi çok sayıda şehir sayabiliyor.

Önemli bir noktaya değinmek gerekirse: Bu sistem, tamamen sıfırdan başlayarak, mevcut imkanlarımla aylar süren bir çalışmanın sonucu olarak geliştirilmiş ve büyük firmaların kendi dil modellerine bağımsız bir alternatif olarak ortaya çıkmıştır. Türkçe yapısını öğrenmesi için Vikipedi sitesindeki tüm Türkçe cümleler gösterilip eğitilmiştir.

Önceki yazı:
Türkçe GPT-2 modeli eğitimi yaklaşık 1 senedir devam ediyor. Kayıp değeri son paylaşımdan beri 1.74 seviyesinden 1.68'e düştü. Artık daha uzun cümleler üretebiliyor. Bu modeli bir hamur gibi düşünün. İnce ayar ile eğitildikten sonra farklı amaçlara hizmet verebilir. İnce ayarla bu hamura şekil veriyorsunuz. Bu hamurdan ne ekmekler çıkar.

BeğenFavori PaylaşYorum yap
Önceki yorumları gör 6 / 8
  • Cenker Sisman @cenker-sisman

    Hala halüsinasyon var ama cümle yapılarını ilk halinden daha iyi anlamış. Kelimelerin anlamlarını kavramlarını daha iyi oluşturmuş. Bu modeli cümle oluşturucu olarak düşünün. Asıl bundan sonra üzerinde ince ayar modeller geliştiğinde sonuçları göreceksiniz.

  • Cenker Sisman @cenker-sisman

    İnce ayar yapılmış bir model örneği. Türkçe GPT modeline birkaç soru cevap örneği verip tekrar hızlıca eğitiyorsunuz. Sonrasında aşağıdaki gibi ona eğitmediğiniz örnek soruları sorunca size cevap verebiliyor. Hala halüsinasyon ve ara sıra saçmalama var ancak günden güne iyileşiyor sistem.
    Cevaplarında verdiği bazı yorumlara dikkat edin. Onlar bu ana modelde öğrendiği cümle yapılarından oluşuyor. İnce ayar modellerinde ise konu ile ilgili detayları gösterebiliyorsunuz. Kendisi öğrendiği Türkçe yapısına göre yorum katıyor.

  • Temp @temp

    @cenker-sisman Hocam bir şey sorucam. Bu eğitilebilen xxxx GPT'ler neden Chatgpt'den sonra çoğaldı da herkes kendi GPT'sini yapmaya başladı? Yani demek istediğim ChatGPT'den önce bunu niye kimse yapmadı, yapamadı mı, düşünemedi mi?
    Niye şuan bir ton GPT hayatımıza girdi yani özetle soru bu. Merakımdan soruyorum yanlış anlaşılmasın.

    • Cenker Sisman @cenker-sisman

      ChatGPT den önceki yakın zamanda da GPT ler vardı ama veri, parametre boyları daha azdı. Örneğin benim kendi modelim GPT2 ayarında sadece 128 milyon parametresi var. bu parametrelerin tıplı insan beynindeki nöronlar gibi birbirleriyle etkileşmesiyle cevap verebiliyor. GPT3 de imkanlar zorlandı veri ve parametre sayısı normal bir bilgisayarın işlemesinin çok çok üstündeydi. Sadece dünyanın en büyük firmalarının finanse edebileceği bir boyuta geldi. Facebook Nvidia dan 500 bin adet GPU satın aldı. Bu muazzam bir rakam.. Bu GPU ları aynı anda çalıştırıp benim senelerce hatta onlarca sene yapabileceğim eğitimi bu makineler şu an gerçekleştiriyorlar. ChatGPT (GPT v3.5 ile) bir kapı açtı bakın paran varsa donanım varsa bu algoritma bu işi çözüyor dedi diğer tüm büyük firmalar da başladılar işe.
      Not: Ben sadece tek bir GPU ile eğitim yapıyorum 🙂

  • Temp @temp

    @cenkersisman Anladım hocam açıklama için teşekkür ederim. Bu arada seo için türkçe makale yazan falan kelime başına ücret biçilerek kendi hizmetini satanlar falan var. O tarz hizmetler direk gpt-4 üzerinden çalışıyor değil mi yoksa bir özelleştirme var mı?

    • Cenker Sisman @cenker-sisman

      Evet şu anda bu pazarın en büyük yükünü OpenAI GPT4 üstleniyor. Google Gemini 1.5 ile, Facebook LLAMA2 ile , Mistral vs.. Bu modellere LLM (Large Language Model) deniyor. Son kullanıcı makinesinde hatta orta ölçekli firmaların kendi sunucularında barındırılamayacak ve işlenemeyecek kadar büyük modeller. O yüzden ne yazık ki bu hizmetlere kişisel verilerinizi yazılarınızı da sağlayarak hizmet alıyorsunuz. Eğer makineniz çok güçlü bir GPU ya sahip ise örneğin RTX4090 gibi ancak ince ayar çekebilirsiniz lokaldeki modellere.

https://huggingface.co/cenkersisman/gpt2-turkish-256-token

Türkçe GPT-2 modeli eğitimi yaklaşık 1 senedir devam ediyor. Kayıp değeri son paylaşımdan beri 1.74 seviyesinden 1.68'e düştü. Artık daha uzun cümleler üretebiliyor. Bu modeli bir hamur gibi düşünün. İnce ayar ile eğitildikten sonra farklı amaçlara hizmet verebilir. İnce ayarla bu hamura şekil veriyorsunuz. Bu hamurdan ne ekmekler çıkar ne ekmekler!

Konu ile ilgili yazı: https://medium.com/@cenker/gpt-model-kullan%C4%B1larak-neler-yap%C4%B1labilir-b0569891922a

BeğenFavori PaylaşYorum yap

Türkçe GPT-2
* Hugging Face'in GPT-2 Small modeli temel alınarak, Türkçe özel bir tokenizer kullanılarak ince ayar çekilmiş bir dil modelidir.
* Türkçe'ye özel olarak hazırlanan tokenizer ile yapılan embedding sayesinde, aynı seviyedeki diğer modellerden daha başarılı sonuçlar elde edilebilir. Bu özel tokenizer tüm veri seti üzerinde 9 gün çalıştırılarak elde edilmiştir.
* Tüm Türkçe Vikipedi metinleri kullanılarak oluşturulan, 1 milyar karakterden oluşan cümleler, temizlenerek eğitilmiştir.
* 124 milyon parametre sayısıyla, model küçük bir dosya boyutuna sahiptir ve bu da onu kişisel kullanım için ideal kılar. Ayrıca, 256 adet giriş token'ı destekler.
* 6 ay süren eğitim sürecinin ardından model, 7460387 adım ve 76. epoch ile 1.69 kayıp değerine ulaşmıştır. Eğitim süreci halen devam etmektedir. Bu süreçte 4GB'lık bir Nvidia GeForce RTX-3050 GPU kullanılmaktadır
* Bu ana model temel alınarak farklı amaçlara yönelik özel ince ayar modelleri oluşturulabilir.
* Auto-progressive bir model olan GPT-2, Türkçe cümleler üretmektedir. Cümleleri beyaz renkli kelimelerle başlatıp, mavi kelimelerle devam ettirerek oluşturmaktadır.
https://huggingface.co/cenkersisman/gpt2-turkish-256-token #gpt #gpt2 #llm #türkçegpt #ceydasistan

BeğenFavori PaylaşYorum yap

https://huggingface.co/cenkersisman/gpt2-turkish-128-token
Türkçe GPT2, 154. epoch da eğitilmeye devam ediyor. kayıp (loss) değeri düştükçe, halüsinasyon olmasına rağmen önceki halinden daha düzgün cevaplar oluşturabildiği hissediliyor. Eğitimine 6 ay önce başlamıştım ve aralıksız olarak sürekli gelişme gösteriyor. Şu anda paylaşımlı hafıza desteği ile beraber 20GB GPU ile eğitiliyor. Detaylar linktedir. Geliştiriciler kendi dil modellerinde veya projelerinde kullanabilir.

BeğenFavori PaylaşYorum yap

Hatırlarsanız Türkçe GPT2 modeli hazırlıyorum. Bu çalışmaya başlamamın nedenlerinden biri, öncesinde Vikipedi metinlerinden soru ve cevap üretebilen başka bir model üzerinde çalışmamdı aslında. Üretilen soru ve cevaplara uyumlu kaynağın GPT modelini önceden oluşturabilirsem farklı sorulara daha uyumlu cevaplar verebileceğini planlıyordum. O yüzden GPT modelini eğitmeye başlamıştım 3 ay önce. Yanılmamışım. Yolum uzun olduğu için bir an evvel nasıl sonuçlar ile karşılacağımın denemelerini yaptım. Vikipedi'den oluşturduğum sadece 5000 soru cevabı, benim model üzerinde eğitmem, umut verici cevaplar almaya yetti. Aşağıda çok farklı konularda rastgele sorduğum sorulardan bir kaçı. Başlangıçta milyonlarca soru ve cevap üretip bunları nasıl eğiteceğim diye kara kara düşünürken, şimdi çalışmaların insana nasıl farklı kapılar açtığını görüyorum. Şimdi tünelin sonundaki ışık gözüktü. #chatgpt #gpt2 #gpt #ceydasistan

BeğenFavori PaylaşYorum yap

Vikipedi metinlerinden hazırladığım hala eğitiminin devam ettiği GPT2 modelinin ne kadar öğrendiğini gözlemlemek için bir çalışma yaptım: Ona birkaç ülkenin en önemli 3 şehrini söyledim (sondaki görsel) ve ondan farklı ülkelerin 3 şehrinin ne olabileceğini tahmin etmesini istedim.
Sonuçlar aşağıda: Başta sonuçların hatalı olduğunu düşünebilirsiniz. Ama aslında öğrenmiş. Eğitimin 20.evresinde olduğu için bilmediği konularda bile öğrendiği kadarını yorumladığını farkettim. Dikkat ederseniz şu ana kadar tam eğitilebildiği kadarını doğru doldurabiliyor. Kalan kısımları kültürel benzer ve yakın ülkenin şehirleri ile dolduruyor. Mesela Pakistan ile Hindistan'ı aynı sanıyor. Almanca dillerini konuşan Avusturya ile Almanya'yı, Fransızca konuşan Belçika ile Fransa'yı aynı yere koyuyor. İspanyolca konuşan Meksika ve İspanya'yı da benzer düşünüyor.. Amaç olan 100. evreye yaklaşınca nasıl bir eğitime uğrayacağını merak ediyorum.

Modelin son haline ulaşmak için: (Kullanımı ücretsizdir)
https://huggingface.co/cenkersisman/gpt2-turkish-900m

Model Açıklaması
GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir. Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 48 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır.. Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 12 epoch eğitilmiştir. Eğitim halen devam etmektedir. Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır.

#ceydasistan #gpt #gpt2 #chatgpt

BeğenFavori PaylaşYorum yap

Kişisel çabalarımla, Türkçe'ye özel, bizim için, bir GPT-2 modeli oluşturmayı deniyorum. Bu amaçla, Türkçe cümle yapısına özgü bir Tokenizer'ı 9 gün boyunca sürekli çalıştırarak oluşturdum ve bu model hala bu Tokenizer'ı kullanarak eğitilmeye devam ediyor. 900 milyon karakterden oluşan ve 10 milyon cümleyi içeren Türkçe Vikipedi metinleri, bu modelin eğitiminde kullanılıyor. Model eğitiminde şu an 32.gündeyim.

Eğitilirken kayıp değeri her geçen gün azalıyor ve aşamalı temizlemelerle daha iyi performans elde ediliyor. Başarıyı ölçmek için yaptığım bir çalışmada, modele birkaç yeni soru-cevap örneği ekleyerek ince ayar yaptım. Yani, modele bu tip sorulara nasıl cevap vermesi gerektiğini öğrettim. Ardından, modele bu tip sorulara benzeyen farklı soruları yanıtlamasını da istedim.

İlk denemede, 8 farklı ülkenin başkentini kendim söyledim. Sonra başka bir ülkenin başkentini sordum ve eğer model gerçek cevabı doğru bir şekilde verebiliyorsa, bu modelin başarılı olduğunu söyleyebiliriz. Ana modelin eğitimi sırasında kayıp değerleri 0'a yaklaştıkça ve aşırı doyma olmadıkça daha iyi performans bekliyorum.

İlk görsellerde, modele verdiğim örnekler bulunuyor. Sonraki görsellerde ise modelden almak istediğim soruların cevapları yer alıyor.

Özetle, sonucu kendisi eğitilmiş modelden öğrenip bilgiyi çekebildiğini gözlemledim.
Basit bir anlatımla Almanya'nın başkenti Berlin ise Fransa'nın başkenti nedir? sorusuna modelden doğru cevabı alabilmek. İlişkileri doğru anlamış mı sorgulayabilmek. "Almanya'nın Berlin ile nasıl bir ilişkisi var ise Fransa'nın ilişkisinin karşılığı nedir sorusuna cevap alabilmek. Modelin kavramları öğrenip öğrenmediğini gözlemleyebilmek.

Geliştiriciler için modelin son hali:
https://huggingface.co/cenkersisman/gpt2-turkish-900m

GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir. Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 48 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır.. Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 12 epoch eğitilmiştir. Eğitim halen devam etmektedir. Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır.

BeğenFavori PaylaşYorum yap

"Türkçe GPT modeli şu an eğitim aşamasında! Geliştiriciler, Hugging Face web sitesinde paylaşılan bu özel Türkçe modelini kullanabilecekler. Bu model, yaklaşık 900 milyon karakterden oluşan ve yaklaşık 10 milyon cümle içeren bir veri setiyle eğitildi. Türkçe için özel olarak hazırlanan bir belirteçleyici (tokenizer) kullanıldı ve tüm Vikipedi metinleri kelime kökleri ve ekleri açısından detaylı bir işlemden geçirilerek oluşturuldu. Bu işlem, çalıştırılması 9 gün süren bir uygulama tarafından gerçekleştirildi.
Eğitim devam etmektedir. 2 günde yaklaşık 1.5 Epoch tamamlanmaktadır
Türkçe dilinde yapay zeka çalışmalarına yeni bir boyut kazandırmak için sabırsızlanıyorum!"

https://huggingface.co/cenkersisman/gpt2-turkish-900m?text=limon

Kullanılan makine özellikleri:
Intel Core i7 11800H 32GB + NVidia Geforce RTX 3050 4GB GPU
#chatgpt #gpt #turkcegpt #ceydasistan

cenkersisman/gpt2-turkish-900m · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.
BeğenFavori PaylaşYorum yap
Önceki yorumları gör 8 / 9
  • Cenker Sisman @cenker-sisman

    Geliştiricilere fikir vermesi açısından bu model nasıl kullanılabilir?
    Bu model üzerinde bir kaç ülke için aşağıdaki cümlelere benzer şekilde eğitim verisi fine-tune edilip eğitiliyor. Sonra eğitimde olmayan aşağıdaki gibi 3 örnek denendiğinde aşağıdaki sonuçlar alınıyor. İşaretlenen ilk cümle sizin cümleniz ikincisi sorulabilecek soru üçüncüsü tahmini cevabı. Hayran kalmamak elde değil. Sadece Meksika tahmin cevabı hatalı. O da eğitim bittiğinde düzeleceğini düşünüyorum.

    Eğitim verisini de şu şekilde düşünelim. İçinde örneklerde kullanılan ülkelerin olmadığını düşünün.
    train_data = [
    {
    "context": "türkiye'nin başkenti ankara'dır.",
    "question": "türkiye'nin başkenti neresidir?",
    "response":"ankara"
    },
    {
    "context": "istanbul, türkiye'nin en kalabalık şehridir.",
    "question": "istanbul, hangi ülkenin en kalabalık şehridir?"
    ,
    "response":"türkiye"
    },
    {
    "context": "fransa'nın başkenti paris'tir.",
    "question": "fransa'nın başkenti neresidir?"
    ,
    "response":"paris"
    },
    {
    "context": "roma, italya'nın başkenti ve en büyük şehridir.",
    "question": "roma, hangi ülkenin başkenti ve en büyük şehridir?",
    "response":"italya"
    },
    {
    "context": "berlin, almanya'nın başkenti ve en büyük şehridir.",
    "question": "berlin, hangi ülkenin başkenti ve en büyük şehridir?",
    "response":"almanya"
    }
    ]

  • Cenker Sisman @cenker-sisman

    bu son örneğe bakarsak ChatGPT kadar güçlü olmasa da, kişisel çabalarla ve imkanlarla bir nevi InstructGPT oluşturduk diyebiliriz.

  • eskod @eskodd

    Abi kolay gelsin epoch dediğin nedir ? Bir de İstanbul cevabı da hatalı çıkmış.

  • Cihangir @chngr

    Hocam google colab da eğitmek pahalı mı olurdu?