Metin Madenciliği
Adından da anlaşılacağı gibi metinlerin içinden belirli kriterlere göre bir seçim yapılmasını metin madenciliği olarak adlandırabiliriz. İngilizce text mining olarak adlandırılan bu kavram herhangi bir literatürdeki kavramların anlamlandırarak yorumlanmasına imkan verir.
metin-madencligi-2Günümüzde verinin ve bilginin bir güç olarak kabul edilmesiyle birlikte metin madenciliği kavramı önem kazanmıştır. İnsanların uzun bir yazıdan alması gereken fikirler, metnin içerisinden seçilen anahtar kavramlardan çok daha kolay bir şekilde anlaşılabilir. Metin madenciliği, karışık metinlerin daha kolay bir şekilde anlaşılmasını sağlar.
Veri madenciliğine benzer aşamalar izlenerek meydana gelen metin madenciliğinde bazı aşamalar bulunmaktadır. Bunlar;
- Enformasyon Getirimi
- Metinlerin bölütlenmesi (clustering)
- Metinlerden konu çıkarılması
- Duygusal analiz (sentimental analysis)
- Metin özetleme (document summarization)
- Varlık ilişki modellemesi ( entity relationship modelling)
Yukarıdaki aşamaları kısaca özetlemek gerekirse: Enformasyon getirimi aslında metin madenciliğinin yapılış amacını ortaya koymaktadır, bizim elimizde bir yazı topluluğu var ve bunun bir şekilde tanınması yani anlamlandırılması gerekli.
Onlarca yazınızın arasından kendi yazınızı tanıyabiliyor musunuz ? eğer cevabınız evetse bunu bir şekilde bilgisayarlarında yapması mümkün, peki nasıl ?
Metinlerin bölütlenmesi (clustering) işlemi sayesinde bir yazı topluluğu içerisinde yer alan bilgilerin daha kolay ayrıştırılması için kullanılan aşamalardan bir tanesidir. Metni paragraflara ayırdığımızda içerisinden bir seçim yapmamız daha kolaydır.
Bölütleme işlemini yaptıktan Metinlerden konu çıkarılması hususunda ise, paragrafın bize neyi anlatmak istediğini az çok anlamak ve ileride anlamakta zorlandığımız kısımları tahmin yoluyla çözümlemek için gerekli olan maddelerden bir tanesidir.
Duygusal analiz: Genellikle yapay zeka uygulamalarında sıkça karşılaştığımız bir kavram olarak karışımıza çıkar. Aynı şekilde metin madenciliğinde de önemli bir yere sahiptir. Metin içerisindeki anahtar kelimelere bakılarak metnin konusu belirlendikten sonra metinin “duygu haritası” çıkarılır ve bize aktarmak istediği şeyi daha kolay anlarız.
Metin özetleme: Gerekli analizleri yaptık ve şimdide bunu daha kısa bir yazı haline getirmemiz gerekiyor, bunu yapmamızın nedeni metin bölütleme işlemine benzer bir şekilde anlamlandırmayı kolaylaştırmasıdır.
Ve son olarak da elde ettiğimiz bilgiler her ne ise bunlar arasında bağlantı kurarak ortaya bir model çıkarma işlemine Varlık ilişki modellemesi adı verilmektedir.
Metin madenciliği her türlü alanda kullanılabilir. Örneğin bir haber sitesinin editörü olduğunuzu düşünün, metin madenciliği sayesinde editörlerinizin hangi yazıyı yazdıklarını onların isimlerine bakmadan öğrenebilirsiniz. Bunu yaparken yukarıdaki aşamalar sonucunda her editöre bir text profile çıkarılacak ve buna göre bir değerlendirme yapılacaktır. Sizin yapmanız gerekense kullandığınız metin madenciliği yazılımına kişinin adını girmek ve sonucu almak
.