Kişisel çabalarımla, Türkçe'ye özel, bizim için, bir GPT-2 modeli oluşturmayı deniyorum. Bu amaçla, Türkçe cümle yapısına özgü bir Tokenizer'ı 9 gün boyunca sürekli çalıştırarak oluşturdum ve bu model hala bu Tokenizer'ı kullanarak eğitilmeye devam ediyor. 900 milyon karakterden oluşan ve 10 milyon cümleyi içeren Türkçe Vikipedi metinleri, bu modelin eğitiminde kullanılıyor. Model eğitiminde şu an 32.gündeyim.
Eğitilirken kayıp değeri her geçen gün azalıyor ve aşamalı temizlemelerle daha iyi performans elde ediliyor. Başarıyı ölçmek için yaptığım bir çalışmada, modele birkaç yeni soru-cevap örneği ekleyerek ince ayar yaptım. Yani, modele bu tip sorulara nasıl cevap vermesi gerektiğini öğrettim. Ardından, modele bu tip sorulara benzeyen farklı soruları yanıtlamasını da istedim.
İlk denemede, 8 farklı ülkenin başkentini kendim söyledim. Sonra başka bir ülkenin başkentini sordum ve eğer model gerçek cevabı doğru bir şekilde verebiliyorsa, bu modelin başarılı olduğunu söyleyebiliriz. Ana modelin eğitimi sırasında kayıp değerleri 0'a yaklaştıkça ve aşırı doyma olmadıkça daha iyi performans bekliyorum.
İlk görsellerde, modele verdiğim örnekler bulunuyor. Sonraki görsellerde ise modelden almak istediğim soruların cevapları yer alıyor.
Özetle, sonucu kendisi eğitilmiş modelden öğrenip bilgiyi çekebildiğini gözlemledim.
Basit bir anlatımla Almanya'nın başkenti Berlin ise Fransa'nın başkenti nedir? sorusuna modelden doğru cevabı alabilmek. İlişkileri doğru anlamış mı sorgulayabilmek. "Almanya'nın Berlin ile nasıl bir ilişkisi var ise Fransa'nın ilişkisinin karşılığı nedir sorusuna cevap alabilmek. Modelin kavramları öğrenip öğrenmediğini gözlemleyebilmek.
Geliştiriciler için modelin son hali:
https://huggingface.co/cenkersisman/gpt2-turkish-900m
GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir. Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 48 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır.. Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 12 epoch eğitilmiştir. Eğitim halen devam etmektedir. Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır.


GitHub’daki bir projeyi bilgisayarınıza indirmeden tarayıcınızda çalışan bir Visual Studio Code üzerinde incelemek isterseniz, ‘github.com’ yerine ‘github1s.com’ yazmanız yeterli.
Örnek: https://github1s.com/torvalds/linux
#Programlama #GitHub #VisualStudioCode #FaydalıBağlantılar
Sabah kalktığımda Anker Soundcore Life Q10 kulaklığımın sol padi böyleydi. Gece birleşme yerinden atmış. Mail attım , yardımcı olabilir misiniz diye. İnşallah yeni pad yollarlar.
Edit: Açılan padi boydan boya iğne ile diktim. Fotoğrafını ekliyorum.
Edit 2 : Anker pad yolladı. İlgili konunun linkini ekliyorum.
https://teknoseyir.com/durum/1353354#comment-4819676
Görseldeki gibi dijital kumpası bilgisayara bağlayıp, bir tuşla ölçümü bilgisayara aktarma rehberi. #rehber #elektronik
https://www.notion.so/Hacking-Digital-Calipers-3ee7726f11ca431694dc70a1977516e4
Arkadaşlar yüksek lisans ilanlarını, kontenjanları vs. takip edebileceğim düzgün bir site biliyor musunuz?
#Matematik ile ilgili hemen her şeyi (sabitler, notasyonlar, formüller vb.) kapsayan hepsi bir arada matematik tablosu. Sayısal bölümlerde okuyan arkadaşların mutlaka bakıp, indirmelerini tavsiye ederim: https://ourway.keybase.pub/mathematics_cheat_sheet.pdf
MIT'den Prof. Erik Demaine tarafından hazırlanmış Gelişmiş Veri Yapıları (Advanced Data Structures) konusu üzerine ders videolarını, ders notlarını, ödevleri ve çözümlerini içeren bir web sayfası. Harika bir içerik gerçekten.
https://courses.csail.mit.edu/6.851/fall17/
#VeriYapıları #BilgisayarMühendisliği #BilgisayarBilimleri #ProgramlamaKaynakları
İnternette denk geldim ilk 1918 yılında basılmış.
Günümüz Türkçe ile yeniden ...
Vilnius Üniversitesi haritacılık bölümü yüksek lisans öğrencilerinin topladığı Avrupa mitleri ve masallarındaki yaratık verilerinin haritalaştırılması çalışması. 2013 yılında yayınlanmış. İlgili arkadaşlar için makale ve görselin tam boyutlu hali bu bağlantıda: https://www.tandfonline.com/doi/full/10.1080/17445647.2013.867544
Mitolojiye hep ilgi duymuşumdur. Çok güzel bir çalışma. Yalnız bizim Karadeniz bölgesinde pek araştırma yapmamışlar sanırım. Bizde hâlâ kullanılan bir mitolojik karakter var: "Germakoçi" (Lazca). Türkçesi: Dağ Adamı. İnsan ve ayı karışımı bir şey olarak anlatıldı bize. Küçükken köyde babannem falan söylerdi, "Buralardan çok uzaklaşmayın ha, Germakoçi kaçırır sizi" diye. Laz çocuklarını evin yakınında tutmak için kullanılan bir mitolojik karakter. Akşamları da hikayeleri anlatılırdı. Günümüzde çoğunluk şehirlere göçtüğü için köyde kaldı bu masallar ama nadirde olsa köyde yaşayan çocuklardan bazen duyuyorum.
Germakoçi: http://www.wikiwand.com/tr/Germako%C3%A7i
NOT: Haritanın tam halini indirmek için sayfanın en altındaki galeri kısmına bakın.

Adamın biri sıfırdan (tasarımdan elektroniğine yazılımına kadar) akıllı saat yapmış ve her aşamayı burada görsellerle anlatmış: https://0imgur.com/a/FSBwD3g
PCB devrelerinden, saatin yazılımına kadar her şeyi de burada paylaşmış: https://github.com/S-March/smarchWatch_PUBLIC
Biz ne zaman böyle şeylerle uğraşabilecek refah seviyesine erişeceğiz acaba...
#AkıllıSaat #Hobi #FaydalıLinkler
“Almanya’nın başkenti neresidir” diyince Berlin cevabını öğreniyor fakat Berlin nerenin başkentidir diyince Almanya diyebiliyor mu önemli olan bu bence
olaya farklı bir açıdan bakmışsınız ama burada anlattıklarımın amacı şu an o değil ama onu da yapıyor. onu da başka bir yazı da belirtirim. teşekkürler. amaç basit dille şu: Almanya'nın başkenti Berlin ise Fransa'nın başkenti neresidir? sorusuna modelden cevap almak.
Nasıl bir donanımda eğittiniz?
Başlıkta detaylar güncelliyorum hemen.