Cenker Sisman

Cenker Sisman @cenker-sisman
25 Ocak 2025 - 14:32

Yeni modelim GemmaTR-WikiQA-4bit, Türkçe dilinde eğitilmiş 27 milyar parametreli bir yapay zeka modeli! Model, kişisel bilgisayarlarda kullanılabilmesi için 4-bit quantize edildi ve 16GB GPU'ya sahip bilgisayarlarda iyi performans sergiliyor. Normalde bu modeli kullanabilmek için 60GB GPU gereksinimi vardı, ancak 4-bit quantize edilmesi sayesinde bu gereksinim düşürüldü. Eğitim için ise en az 80GB GPU göz önünde bulundurulmalı.

Bu model, 1,937,069 Türkçe Vikipedi soru-cevap verisinden 1.7 epoch boyunca eğitildi ve gelişmeye devam ediyor. Aşağıdaki linklerden modelin detaylarına erişebilirsiniz:

https://huggingface.co/cenkersisman/GemmaTR-WikiQA-4bit-GGUF
https://ollama.com/cenker/GemmaTR-WikiQA-4bit
Ayrıca, Türkçe dilinde bilinen diğer açık kaynak modelleri de göz önünde bulundurursak:

YTU: ytu-ce-cosmos/Turkish-Llama-8b-Instruct-v0.1 – 8 milyar parametre
Boğaziçi Üniversitesi: boun-tabi-LMG/TURNA– 1.14 milyar parametre
Türkcell: TURKCELL/Turkcell-LLM-7b-v1 – 7 milyar parametre
Trendyol: Trendyol/Trendyol-LLM-7b-chat-v1.0 – 7 milyar parametre

Amacım GemmaTR-WikiQA-4bit ile Türkçe NLP dünyasına önemli bir katkı sağlamak! Devamı geliyor.

cenkersisman/GemmaTR-WikiQA-4bit-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Beğen Favori Paylaş Yorum yap

21 2 1

Önceki yorumları gör 12 / 13

oniki @oniki

Başarılarınızı uzaktan takip eden birisi olarak, tebrik ediyorum, cahilce soruyorum, sizin ceyda vardı, bu onun yerine mi geliyor yani ceydanın yapay zekası bu model mi olacak, oldu? Konumlandırmaları nasıl?

25 Ocak 2025 - 14:55 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  Estağfurullah, teşekkür ederim. CEYD-A sadece bir sesli asistan değil geliştirilebilir sesli asistandı. Yani kullanıcılar da geliştirebilir düzeye geldi ve onu kendiliğine bıraktım diyebiliriz. Şu anda isteyen kullanıcılar ChatGPT veya farklı modellerin API larına bağlanan CEYD dili ile kod yazıp CEYD-A ya entegre edebilirler. Hatta bu ve bunun gibi localdeki modellere bağlanıp sesli bir asistan hale getirilebilir.
  
  25 Ocak 2025 - 15:03 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  Hazır kodları CEYD-A kurulu Android telefondan girip linklerin üzerine tıklayarak aktif hale getirebilirsiniz.
  https://ceyd-a.com/ceydcodes.html
  Veya
  kodla.ceyd-a.com sitesinden kendi kodlarınızı geliştirebilirsiniz.
  https://web.ceyd-a.com/2023/01/ceyd-a-ya-gpt-veya-farkli-bir-sistem-entegre-etmek/
  https://web.ceyd-a.com/2023/01/ceyd-a-proxy-ile-islerinizi-bilgisayariniza-yaptirin/
  
  25 Ocak 2025 - 15:07 Yanıtla Beğen 2
Arkeolog @arkeolog

Hocam neden Gemma'yı tercih ettiniz merak ettim ? Gemmanın avantaj/ları nelerdir? Mistral ve Llama daha iyi gibi geliyor standart bir kullanıcı olarak.

25 Ocak 2025 - 15:07 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Türkçe akıl yürütme için Gemma2 yi daha iyi buldum açıkçası. Ayrıca performans parametre boyutları ile de etkileniyor. 27B lik bir model 8B veya 9B lik bir modelden daha başarılı oluyor genelde. llamanın 70b parametreli versiyonu gerçekten çok iyi. Eğer soru ve cevaplarınızı küçük contextlerde kullanıyorsanız llama3.1 8b işinizi görür hatta küçük işlerde ben de onu tercih ediyorum. Ama eğer çok sayıda işlemi aynı anda sorgulatıp (10 veya üstü) işlemlerin sonuçlarından bir yere ulaşmasını istiyorsanız ve daha az halüsinasyona sahip bir model istiyorsanız 27B işinizi görecektir. Eğer llama nın 35b veya benzer parametre boyutlarında versiyonları olsaydı onu tercih edebilirdim. Sadece parametre değil başka faktörlerde var aslında mesela aya nın 35b lik modeli var ama ne yazık ki tatmin etmedi testlerimde.
  
  25 Ocak 2025 - 15:16 Yanıtla Beğen
Agab @agab

Hocam son 2 yılda chatgpt gelişi ve diğer modellerin de birden çıkışı ceyda'yı etkiledi mi? Ben hatırlıyorum buradan paylaştıklarınızla yıllardır kendiniz bir model eğittiniz yükselttiniz. Şimdi bir firma gelip -örnek veriyorum- sizin modelinizden milyon kat daha fazla eğitilmiş model çıkardı.
Not: bu sorum ceyda üzerinde değil, genel olarak bu işi yapanlar için.

25 Ocak 2025 - 16:01 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  Merhaba, CEYD-A diğer rakiplerinde farklı bir sesli asistan olduğu için etkisi az oldu aslında. Çünkü CEYD-A açılımına da bakarsanız CEYD dili ile geliştirilen Asistan. Kendi açık kaynak oluşturabileceğiniz geliştirme dili var ve sadece kendi entegre modeli değil farklı modelleri de kendi bünyesine ekleyebiliyorsunuz. Kullanıcı bunu yapabiliyor. Bir geliştirme ortamı var sonuçta cepten webten geliştirebiliyorsunuz. Örneğin ChatGPT yi veya farklı modelleri entegre etmek için CEYD kodlarına aşağıdan ulaşabilirsiniz.
  https://ceyd-a.com/ceydcodes.html
  Ama genel olarak diğer sesli asistanları da söylüyorsanız evet muhakkak etkilendiler.
  
  25 Ocak 2025 - 16:26 Yanıtla Beğen 1
- Deniz Fidan @deniz-fidan
  
  @cenker-sisman hocam şu anda da istersek ceyd dili ile bir şeyler yapabiliyor muyuz? Hala aktif mi İnceleyim bir. Çalışmalarınızı severek rakip ediyorum saygılar.
  
  26 Ocak 2025 - 19:49 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  @deniz-fidan Merhaba Deniz bey, evet https://kodla.ceyd-a.com sitesinden kendi kodlarınızı girebilirsiniz. Kullanıcı isminiz ile sonra mobil uygulamadan giriş yaptığınızda kendi kodlarınızı CEYD-A üzerinde kullanabilirsiniz.
  https://web.ceyd-a.com/list/all-posts/
  sayfasından da yardımcı olabilecek yazılara da ulaşabilirsiniz.
  Bir sorun olursa bana https://web.ceyd-a.com/bize-ulasin/ sayfasından da ulaşabilirsiniz..
  
  26 Ocak 2025 - 21:28 Yanıtla Beğen 1
- Deniz Fidan @deniz-fidan
  
  @cenker-sisman çok teşekkürler 🫡🫡
  
  27 Ocak 2025 - 02:17 Yanıtla Beğen
lterlemez :) :\ :( @lterlemez

Çalışmayı ayrı tutarak (tebrikler), bu işin maliyeti gene son kullanıcıya kaymağı ise 3 büyük sistem üreticisine ve donanımcılarına kalacak gibi duruyor ve daha da kötüsü kimse son kullanıcıya sormuyor, "gerçekten istiyor musun?" diye.

25 Ocak 2025 - 20:06 Yanıtla Beğen
- lterlemez :) :\ :( @lterlemez
  
  "AI cpu'yu satın almak istemiyorum, neden boğazımdan aşağı iteliyorsun?" mesela...
  
  25 Ocak 2025 - 20:07 Yanıtla Beğen

Cenker Sisman @cenker-sisman
07 Mart 2024 - 09:44

https://huggingface.co/cenkersisman/gpt2-turkish-256-token
Aşağıdaki yazıyı bir ay önce yayınlamıştım. Şu anda kayıp değeri 1.68 den 1.60 seviyelerine düştü. Eğitim devam ediyor. Üretilen cevaplardaki düzelme artık hissedilmeye başladı. "Türkiye'nin en büyük şehirleri" ile başlayan cümle kur dediğimde eğitimin başlarında sadece birkaç şehir sayabilirken şimdi çok sayıda şehir sayabiliyor.

Önemli bir noktaya değinmek gerekirse: Bu sistem, tamamen sıfırdan başlayarak, mevcut imkanlarımla aylar süren bir çalışmanın sonucu olarak geliştirilmiş ve büyük firmaların kendi dil modellerine bağımsız bir alternatif olarak ortaya çıkmıştır. Türkçe yapısını öğrenmesi için Vikipedi sitesindeki tüm Türkçe cümleler gösterilip eğitilmiştir.

Önceki yazı:
Türkçe GPT-2 modeli eğitimi yaklaşık 1 senedir devam ediyor. Kayıp değeri son paylaşımdan beri 1.74 seviyesinden 1.68'e düştü. Artık daha uzun cümleler üretebiliyor. Bu modeli bir hamur gibi düşünün. İnce ayar ile eğitildikten sonra farklı amaçlara hizmet verebilir. İnce ayarla bu hamura şekil veriyorsunuz. Bu hamurdan ne ekmekler çıkar.

Beğen Favori Paylaş Yorum yap

7 1

Önceki yorumları gör 6 / 8

Cenker Sisman @cenker-sisman

Hala halüsinasyon var ama cümle yapılarını ilk halinden daha iyi anlamış. Kelimelerin anlamlarını kavramlarını daha iyi oluşturmuş. Bu modeli cümle oluşturucu olarak düşünün. Asıl bundan sonra üzerinde ince ayar modeller geliştiğinde sonuçları göreceksiniz.

07 Mart 2024 - 10:23 Yanıtla Beğen 1
Cenker Sisman @cenker-sisman

İnce ayar yapılmış bir model örneği. Türkçe GPT modeline birkaç soru cevap örneği verip tekrar hızlıca eğitiyorsunuz. Sonrasında aşağıdaki gibi ona eğitmediğiniz örnek soruları sorunca size cevap verebiliyor. Hala halüsinasyon ve ara sıra saçmalama var ancak günden güne iyileşiyor sistem.
Cevaplarında verdiği bazı yorumlara dikkat edin. Onlar bu ana modelde öğrendiği cümle yapılarından oluşuyor. İnce ayar modellerinde ise konu ile ilgili detayları gösterebiliyorsunuz. Kendisi öğrendiği Türkçe yapısına göre yorum katıyor.

07 Mart 2024 - 10:27 Yanıtla Beğen
Temp @temp

@cenker-sisman Hocam bir şey sorucam. Bu eğitilebilen xxxx GPT'ler neden Chatgpt'den sonra çoğaldı da herkes kendi GPT'sini yapmaya başladı? Yani demek istediğim ChatGPT'den önce bunu niye kimse yapmadı, yapamadı mı, düşünemedi mi?
Niye şuan bir ton GPT hayatımıza girdi yani özetle soru bu. Merakımdan soruyorum yanlış anlaşılmasın.

07 Mart 2024 - 17:09 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  ChatGPT den önceki yakın zamanda da GPT ler vardı ama veri, parametre boyları daha azdı. Örneğin benim kendi modelim GPT2 ayarında sadece 128 milyon parametresi var. bu parametrelerin tıplı insan beynindeki nöronlar gibi birbirleriyle etkileşmesiyle cevap verebiliyor. GPT3 de imkanlar zorlandı veri ve parametre sayısı normal bir bilgisayarın işlemesinin çok çok üstündeydi. Sadece dünyanın en büyük firmalarının finanse edebileceği bir boyuta geldi. Facebook Nvidia dan 500 bin adet GPU satın aldı. Bu muazzam bir rakam.. Bu GPU ları aynı anda çalıştırıp benim senelerce hatta onlarca sene yapabileceğim eğitimi bu makineler şu an gerçekleştiriyorlar. ChatGPT (GPT v3.5 ile) bir kapı açtı bakın paran varsa donanım varsa bu algoritma bu işi çözüyor dedi diğer tüm büyük firmalar da başladılar işe.
  Not: Ben sadece tek bir GPU ile eğitim yapıyorum 🙂
  
  07 Mart 2024 - 17:19 Yanıtla Beğen 2
Temp @temp

@cenkersisman Anladım hocam açıklama için teşekkür ederim. Bu arada seo için türkçe makale yazan falan kelime başına ücret biçilerek kendi hizmetini satanlar falan var. O tarz hizmetler direk gpt-4 üzerinden çalışıyor değil mi yoksa bir özelleştirme var mı?

07 Mart 2024 - 17:29 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Evet şu anda bu pazarın en büyük yükünü OpenAI GPT4 üstleniyor. Google Gemini 1.5 ile, Facebook LLAMA2 ile , Mistral vs.. Bu modellere LLM (Large Language Model) deniyor. Son kullanıcı makinesinde hatta orta ölçekli firmaların kendi sunucularında barındırılamayacak ve işlenemeyecek kadar büyük modeller. O yüzden ne yazık ki bu hizmetlere kişisel verilerinizi yazılarınızı da sağlayarak hizmet alıyorsunuz. Eğer makineniz çok güçlü bir GPU ya sahip ise örneğin RTX4090 gibi ancak ince ayar çekebilirsiniz lokaldeki modellere.
  
  07 Mart 2024 - 17:37 Yanıtla Beğen 1

Cenker Sisman @cenker-sisman
30 Ocak 2024 - 19:24

https://huggingface.co/cenkersisman/gpt2-turkish-256-token

Türkçe GPT-2 modeli eğitimi yaklaşık 1 senedir devam ediyor. Kayıp değeri son paylaşımdan beri 1.74 seviyesinden 1.68'e düştü. Artık daha uzun cümleler üretebiliyor. Bu modeli bir hamur gibi düşünün. İnce ayar ile eğitildikten sonra farklı amaçlara hizmet verebilir. İnce ayarla bu hamura şekil veriyorsunuz. Bu hamurdan ne ekmekler çıkar ne ekmekler!

Konu ile ilgili yazı: https://medium.com/@cenker/gpt-model-kullan%C4%B1larak-neler-yap%C4%B1labilir-b0569891922a

Beğen Favori Paylaş Yorum yap

10 1

Chevron @chevron

neden bir yıl sürüyor eğitimi ?

30 Ocak 2024 - 19:37 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Bu işlemler gerçekte o kadar zahmetli ki büyük firmalar yüzbinlerce GPU'yu aynı anda kullanıyorlar. Bende ise sadece tek bir GPU var.
  
  30 Ocak 2024 - 20:39 Yanıtla Beğen 1

Cenker Sisman @cenker-sisman
02 Ocak 2024 - 21:27

Türkçe GPT-2
* Hugging Face'in GPT-2 Small modeli temel alınarak, Türkçe özel bir tokenizer kullanılarak ince ayar çekilmiş bir dil modelidir.
* Türkçe'ye özel olarak hazırlanan tokenizer ile yapılan embedding sayesinde, aynı seviyedeki diğer modellerden daha başarılı sonuçlar elde edilebilir. Bu özel tokenizer tüm veri seti üzerinde 9 gün çalıştırılarak elde edilmiştir.
* Tüm Türkçe Vikipedi metinleri kullanılarak oluşturulan, 1 milyar karakterden oluşan cümleler, temizlenerek eğitilmiştir.
* 124 milyon parametre sayısıyla, model küçük bir dosya boyutuna sahiptir ve bu da onu kişisel kullanım için ideal kılar. Ayrıca, 256 adet giriş token'ı destekler.
* 6 ay süren eğitim sürecinin ardından model, 7460387 adım ve 76. epoch ile 1.69 kayıp değerine ulaşmıştır. Eğitim süreci halen devam etmektedir. Bu süreçte 4GB'lık bir Nvidia GeForce RTX-3050 GPU kullanılmaktadır
* Bu ana model temel alınarak farklı amaçlara yönelik özel ince ayar modelleri oluşturulabilir.
* Auto-progressive bir model olan GPT-2, Türkçe cümleler üretmektedir. Cümleleri beyaz renkli kelimelerle başlatıp, mavi kelimelerle devam ettirerek oluşturmaktadır.
https://huggingface.co/cenkersisman/gpt2-turkish-256-token #gpt #gpt2 #llm #türkçegpt #ceydasistan

Beğen Favori Paylaş Yorum yap

15 3 1

Cenker Sisman @cenker-sisman

https://medium.com/@cenker/gpt-model-kullan%C4%B1larak-neler-yap%C4%B1labilir-b0569891922a

05 Ocak 2024 - 17:10 Yanıtla Beğen

Cenker Sisman @cenker-sisman
29 Kasım 2023 - 23:12

https://huggingface.co/cenkersisman/gpt2-turkish-128-token
Türkçe GPT2, 154. epoch da eğitilmeye devam ediyor. kayıp (loss) değeri düştükçe, halüsinasyon olmasına rağmen önceki halinden daha düzgün cevaplar oluşturabildiği hissediliyor. Eğitimine 6 ay önce başlamıştım ve aralıksız olarak sürekli gelişme gösteriyor. Şu anda paylaşımlı hafıza desteği ile beraber 20GB GPU ile eğitiliyor. Detaylar linktedir. Geliştiriciler kendi dil modellerinde veya projelerinde kullanabilir.

Beğen Favori Paylaş Yorum yap

8 1

Cenker Sisman @cenker-sisman
29 Ekim 2023 - 10:51

CEYD-A'nın bugüne özel açılış sayfası! Cumhuriyet Bayramımız'ın 100. yılı kutlu olsun. 🇹🇷
#CumhuriyetBayramı #100yıllıkgurur #cumhuriyet #29EkimCumhuriyetBayramı
#Cumhuriyet100Yaşında

Beğen Favori Paylaş Yorum yap

35

Cenker Sisman @cenker-sisman
15 Ekim 2023 - 12:57

Hatırlarsanız Türkçe GPT2 modeli hazırlıyorum. Bu çalışmaya başlamamın nedenlerinden biri, öncesinde Vikipedi metinlerinden soru ve cevap üretebilen başka bir model üzerinde çalışmamdı aslında. Üretilen soru ve cevaplara uyumlu kaynağın GPT modelini önceden oluşturabilirsem farklı sorulara daha uyumlu cevaplar verebileceğini planlıyordum. O yüzden GPT modelini eğitmeye başlamıştım 3 ay önce. Yanılmamışım. Yolum uzun olduğu için bir an evvel nasıl sonuçlar ile karşılacağımın denemelerini yaptım. Vikipedi'den oluşturduğum sadece 5000 soru cevabı, benim model üzerinde eğitmem, umut verici cevaplar almaya yetti. Aşağıda çok farklı konularda rastgele sorduğum sorulardan bir kaçı. Başlangıçta milyonlarca soru ve cevap üretip bunları nasıl eğiteceğim diye kara kara düşünürken, şimdi çalışmaların insana nasıl farklı kapılar açtığını görüyorum. Şimdi tünelin sonundaki ışık gözüktü. #chatgpt #gpt2 #gpt #ceydasistan

Beğen Favori Paylaş Yorum yap

14

Hasan @hasans

sizin gibi birkaç yüz özgün üretici olsa memleketin hali başka olurdu.

15 Ekim 2023 - 13:19 Yanıtla Beğen 7

Cenker Sisman @cenker-sisman
08 Ekim 2023 - 13:58

Vikipedi metinlerinden hazırladığım hala eğitiminin devam ettiği GPT2 modelinin ne kadar öğrendiğini gözlemlemek için bir çalışma yaptım: Ona birkaç ülkenin en önemli 3 şehrini söyledim (sondaki görsel) ve ondan farklı ülkelerin 3 şehrinin ne olabileceğini tahmin etmesini istedim.
Sonuçlar aşağıda: Başta sonuçların hatalı olduğunu düşünebilirsiniz. Ama aslında öğrenmiş. Eğitimin 20.evresinde olduğu için bilmediği konularda bile öğrendiği kadarını yorumladığını farkettim. Dikkat ederseniz şu ana kadar tam eğitilebildiği kadarını doğru doldurabiliyor. Kalan kısımları kültürel benzer ve yakın ülkenin şehirleri ile dolduruyor. Mesela Pakistan ile Hindistan'ı aynı sanıyor. Almanca dillerini konuşan Avusturya ile Almanya'yı, Fransızca konuşan Belçika ile Fransa'yı aynı yere koyuyor. İspanyolca konuşan Meksika ve İspanya'yı da benzer düşünüyor.. Amaç olan 100. evreye yaklaşınca nasıl bir eğitime uğrayacağını merak ediyorum.

Modelin son haline ulaşmak için: (Kullanımı ücretsizdir)
https://huggingface.co/cenkersisman/gpt2-turkish-900m

Model Açıklaması
GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir. Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 48 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır.. Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 12 epoch eğitilmiştir. Eğitim halen devam etmektedir. Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır.

#ceydasistan #gpt #gpt2 #chatgpt

Beğen Favori Paylaş Yorum yap

14 2

kortex @kortex

Hocam sizin bu projeden kazancınız ne oluyor? Maddi olarak sürdürebiliyor musunuz?

08 Ekim 2023 - 14:12 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  merhaba yapay zeka benim çocukluk yaşlarımdan beri ilgi alanım ve geliştirdiklerimi hobi olarak severek geliştiriyorum. Ne yazık ki maddi olarak bir kazanç getirmiyorlar. Ancak maddi bir destek olsaydı kesin daha hızlı geliştirmeler sağlayabilirdim. Elimdeki kişisel notebook sayesinde onu en verimli kullanarak geliştirmelere devam ediyorum.
  
  08 Ekim 2023 - 14:19 Yanıtla Beğen 3
- qubit @qubit
  
  @cenker-sisman Tübitak vs. gibi bir yerlerden destek almayı düşündünüz mü?
  
  08 Ekim 2023 - 14:25 Yanıtla Beğen 1
- Metin @babazula
  
  @leventp @cenker-sisman Levent abiyle yapay zeka konusunda bir yayın yapsanız ne güzel olurdu...
  
  08 Ekim 2023 - 14:36 Yanıtla Beğen 5
Cenker Sisman @cenker-sisman

Bu yazıda kullandığım ve eğitime devam ettiğim model 48 token destekli bir model. Şu anda başka bir makinede 128 token lı daha gelişmiş bir model eğitiyorum. 48 token yaklaşık 48 kelime/hece lik cümleler kurabilmesi demek. 128 tokenlık model ile yaklaşık 3 kat daha uzun cümleleri işleyip üretebilmesini sağlayabileceğiz.
https://huggingface.co/cenkersisman/gpt2-turkish-128-token

08 Ekim 2023 - 14:22 Yanıtla Beğen

Cenker Sisman @cenker-sisman
20 Eylül 2023 - 10:16

Kişisel çabalarımla, Türkçe'ye özel, bizim için, bir GPT-2 modeli oluşturmayı deniyorum. Bu amaçla, Türkçe cümle yapısına özgü bir Tokenizer'ı 9 gün boyunca sürekli çalıştırarak oluşturdum ve bu model hala bu Tokenizer'ı kullanarak eğitilmeye devam ediyor. 900 milyon karakterden oluşan ve 10 milyon cümleyi içeren Türkçe Vikipedi metinleri, bu modelin eğitiminde kullanılıyor. Model eğitiminde şu an 32.gündeyim.

Eğitilirken kayıp değeri her geçen gün azalıyor ve aşamalı temizlemelerle daha iyi performans elde ediliyor. Başarıyı ölçmek için yaptığım bir çalışmada, modele birkaç yeni soru-cevap örneği ekleyerek ince ayar yaptım. Yani, modele bu tip sorulara nasıl cevap vermesi gerektiğini öğrettim. Ardından, modele bu tip sorulara benzeyen farklı soruları yanıtlamasını da istedim.

İlk denemede, 8 farklı ülkenin başkentini kendim söyledim. Sonra başka bir ülkenin başkentini sordum ve eğer model gerçek cevabı doğru bir şekilde verebiliyorsa, bu modelin başarılı olduğunu söyleyebiliriz. Ana modelin eğitimi sırasında kayıp değerleri 0'a yaklaştıkça ve aşırı doyma olmadıkça daha iyi performans bekliyorum.

İlk görsellerde, modele verdiğim örnekler bulunuyor. Sonraki görsellerde ise modelden almak istediğim soruların cevapları yer alıyor.

Özetle, sonucu kendisi eğitilmiş modelden öğrenip bilgiyi çekebildiğini gözlemledim.
Basit bir anlatımla Almanya'nın başkenti Berlin ise Fransa'nın başkenti nedir? sorusuna modelden doğru cevabı alabilmek. İlişkileri doğru anlamış mı sorgulayabilmek. "Almanya'nın Berlin ile nasıl bir ilişkisi var ise Fransa'nın ilişkisinin karşılığı nedir sorusuna cevap alabilmek. Modelin kavramları öğrenip öğrenmediğini gözlemleyebilmek.

Geliştiriciler için modelin son hali:
https://huggingface.co/cenkersisman/gpt2-turkish-900m

GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir. Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 48 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır.. Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 12 epoch eğitilmiştir. Eğitim halen devam etmektedir. Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır.

Beğen Favori Paylaş Yorum yap

21 2

Metin @babazula

“Almanya’nın başkenti neresidir” diyince Berlin cevabını öğreniyor fakat Berlin nerenin başkentidir diyince Almanya diyebiliyor mu önemli olan bu bence

20 Eylül 2023 - 10:44 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  olaya farklı bir açıdan bakmışsınız ama burada anlattıklarımın amacı şu an o değil ama onu da yapıyor. onu da başka bir yazı da belirtirim. teşekkürler. amaç basit dille şu: Almanya'nın başkenti Berlin ise Fransa'nın başkenti neresidir? sorusuna modelden cevap almak.
  
  20 Eylül 2023 - 10:47 Yanıtla Beğen 4
Alperen @byalperen

Nasıl bir donanımda eğittiniz?

20 Eylül 2023 - 11:26 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Başlıkta detaylar güncelliyorum hemen.
  
  20 Eylül 2023 - 11:32 Yanıtla Beğen 1

Cenker Sisman @cenker-sisman
19 Ağustos 2023 - 16:11

"Türkçe GPT modeli şu an eğitim aşamasında! Geliştiriciler, Hugging Face web sitesinde paylaşılan bu özel Türkçe modelini kullanabilecekler. Bu model, yaklaşık 900 milyon karakterden oluşan ve yaklaşık 10 milyon cümle içeren bir veri setiyle eğitildi. Türkçe için özel olarak hazırlanan bir belirteçleyici (tokenizer) kullanıldı ve tüm Vikipedi metinleri kelime kökleri ve ekleri açısından detaylı bir işlemden geçirilerek oluşturuldu. Bu işlem, çalıştırılması 9 gün süren bir uygulama tarafından gerçekleştirildi.
Eğitim devam etmektedir. 2 günde yaklaşık 1.5 Epoch tamamlanmaktadır
Türkçe dilinde yapay zeka çalışmalarına yeni bir boyut kazandırmak için sabırsızlanıyorum!"

https://huggingface.co/cenkersisman/gpt2-turkish-900m?text=limon

Kullanılan makine özellikleri:
Intel Core i7 11800H 32GB + NVidia Geforce RTX 3050 4GB GPU
#chatgpt #gpt #turkcegpt #ceydasistan

cenkersisman/gpt2-turkish-900m · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Beğen Favori Paylaş Yorum yap

14

Önceki yorumları gör 8 / 9

Cenker Sisman @cenker-sisman

Geliştiricilere fikir vermesi açısından bu model nasıl kullanılabilir?
Bu model üzerinde bir kaç ülke için aşağıdaki cümlelere benzer şekilde eğitim verisi fine-tune edilip eğitiliyor. Sonra eğitimde olmayan aşağıdaki gibi 3 örnek denendiğinde aşağıdaki sonuçlar alınıyor. İşaretlenen ilk cümle sizin cümleniz ikincisi sorulabilecek soru üçüncüsü tahmini cevabı. Hayran kalmamak elde değil. Sadece Meksika tahmin cevabı hatalı. O da eğitim bittiğinde düzeleceğini düşünüyorum.

Eğitim verisini de şu şekilde düşünelim. İçinde örneklerde kullanılan ülkelerin olmadığını düşünün.
train_data = [
{
"context": "türkiye'nin başkenti ankara'dır.",
"question": "türkiye'nin başkenti neresidir?",
"response":"ankara"
},
{
"context": "istanbul, türkiye'nin en kalabalık şehridir.",
"question": "istanbul, hangi ülkenin en kalabalık şehridir?"
,
"response":"türkiye"
},
{
"context": "fransa'nın başkenti paris'tir.",
"question": "fransa'nın başkenti neresidir?"
,
"response":"paris"
},
{
"context": "roma, italya'nın başkenti ve en büyük şehridir.",
"question": "roma, hangi ülkenin başkenti ve en büyük şehridir?",
"response":"italya"
},
{
"context": "berlin, almanya'nın başkenti ve en büyük şehridir.",
"question": "berlin, hangi ülkenin başkenti ve en büyük şehridir?",
"response":"almanya"
}
]

19 Ağustos 2023 - 16:30 Yanıtla Beğen
Cenker Sisman @cenker-sisman

bu son örneğe bakarsak ChatGPT kadar güçlü olmasa da, kişisel çabalarla ve imkanlarla bir nevi InstructGPT oluşturduk diyebiliriz.

19 Ağustos 2023 - 16:39 Yanıtla Beğen 1
eskod @eskodd

Abi kolay gelsin epoch dediğin nedir ? Bir de İstanbul cevabı da hatalı çıkmış.

19 Ağustos 2023 - 20:13 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Esasında onu ben hatalı yazdım yine de kendisi olumsuz etkilenmemis bu durumdan. Düzeltirim tesekkurler
  
  19 Ağustos 2023 - 20:33 Yanıtla Beğen 1
- Cenker Sisman @cenker-sisman
  
  Epoch burada tüm eğitim setinin bir kez eğitme süreci olarak düşünebilir. 100 epoch tüm eğitim setinin 100 kez üzerinden geçilerek yeni katsayılar oluşturma süreci. Bu süreç kullandığım makinede aylar demek oluyor
  
  19 Ağustos 2023 - 20:36 Yanıtla Beğen 1
Cihangir @chngr

Hocam google colab da eğitmek pahalı mı olurdu?

19 Ağustos 2023 - 21:07 Yanıtla Beğen
- Cenker Sisman @cenker-sisman
  
  Uzun süreli eğitim olacağı için zaman nakit olarak işlenirdi. Denediğim ucretsiz colab sunucuları da kendi makinemden daha performanslı değildi ne yazık ki.
  
  19 Ağustos 2023 - 21:31 Yanıtla Beğen
- eskod @eskodd
  
  @cenker-sisman abi udemyde yapay zeka kursu hazirlarsan ilk ogrencin ben olurum
  
  19 Ağustos 2023 - 22:23 Yanıtla Beğen 1

Cenker Sisman

Kullanıcıyı engelle

Kullanıcıyı bildir

cenkersisman/GemmaTR-WikiQA-4bit-GGUF · Hugging Face

cenkersisman/gpt2-turkish-900m · Hugging Face

Teknoseyir gündemi

Öne çıkan videolar

Xiaomi 17T: Xiaomi'nin En Yenisi!

BİM'de Satılan Oyun Konsolu Polosmart'ı Alıp İnceledik

YouTube'ta telif haklarını ihlal etmeden nasıl yayın yapılır?

Araç alırken ikinci el mi sıfır mı ?

Samsung Galaxy Z Fold 8 Ultra, Fold 8 ve Flip 8 - İlk İzlenimler!

Öne çıkan bloglar

Şekilli MSN Nickleri

Xiaomi Telefonunuzun Aslında Adı Ne? Tüm Mi Telefonların Kod Adları, Şirket İsimlendirmeleri ve Ticari Adları

Sokaktan Sahiplenebileceğiniz Kedi Cinsleri ve Karakterleri

Türk Telekom Sil Süpür Çıkmıyor Çözümü

Mobil Klima Performans Arttırma (Çift Hortum Hilesi)

Öne çıkan incelemeler

Pilot H-1010 The Shaker Mekanik Kalem

U Watch u8

Ford Focus Sedan Titanium 1.5 TDCi PowerShift

Samsung SM-B310E

Casio Efa-120L-1A1vdr Erkek Kol Saati