Giriş

Siber zorbalık günümüzde epey ciddi ve gittikçe büyüyen bir endişe. Makine öğrenmesi ise yine aynı şekilde epey revaçta. Biz de bu ikisini birleştirdik, modelimizi onbinlerce tweet, yorum ve haber verisinde eğittik ve Rahatsız Edici İçerik Tespiti’ni yarattık. Anlaşılan epeyde başarılı oldu.

A-) Nasıl yaptık?

Öncelikle şunu hatırlatayım, buradaki amacımız küfürlü cümleleri bulmak değil örneğin “Sen ne kadar karakter yoksunu birisin?” gibi “rahatsız edici” içeriğe sahip cümleleri yakalamak. Veri toplarken sürekli olarak kendimize bunu hatırlatmaya çalıştık. Zira küfürlü cümleleri kural tabanlı bir sistem kullanarak yakalamak epey kolayken, sadece kural tabanlı bir sistemle ufak tefek hakaretleri yakalamak neredeyse imkansız. Projenin sonraki adımlarında hem kural tabanlı hem de yapay zekalı bir sınıflandırıcı kullanmanın en iyi sonuçları verdiği kanısına vardık. Bunları söylemekle beraber başlayabiliriz.

Çoğu “Makine Öğrenmesi Projesi” kabaca 3 aşamaya indirgenebilir. Bu aşamalar: Veri toplama ve etiketleme, veriden özellikle çıkarma ve model eğitme, odeli geliştirme. Bu proje de bu üç aşamadan pek farklı değildi.

İlk ve en zorlu bölüm tabi ki de veri toplamaktı. Biz de internet üzerinden binlerce veri topladık. (Çoğunlukla Twitter, Türkiye’nin popüler paylaşım siteleri ve Haber sitelerinden) Ardından ABUSIVE [1] ya da NORMAL [0] olmak üzere iki türlü etiketledik. Ve tahmin edebileceğiniz gibi bu projenin en zorlu kısmıydı dolayısıyla burada yaz stajyerimiz Enes’e tekrar teşekkür etmek istiyorum.

Son olarak da modelimizi test ettik ve küfürlü kelimeleri yakalamakta biraz zorlandığını gördük dolayısıyla sözlük tabanlı bir sınıflandırıcı ekledik. Bu şekilde çalıştırdığımızda bana sorarsanız epey başarılı oldu ama tabi ki her zaman geliştirmek için yer var.

B-) Kimin İçin?

Kısaca herkes için diyebilirdim ama daha spesifik olmak gerekirse bu servis çevrimiçi forum ve blog sahipleri için epey faydalı olur. Ama daha da önemlisi bu servis çocuklarını internetin sert ve acımasız ikliminden korumak isteyen ebeveynler için mükemmel denebilir.

Kabul edelim ki Internet çocuklara uygun bir yer değil. Hatta bazen ben bile ne işim var burada diyorum. Dünyanın her yerinden farklı özgeçmişlere ve kafa yapılarına sahip bir sürü insanla dolu bir ortam burası. O yüzden bu insanlar birbiriyle etkileşime geçtiğinde kötü şeylerin ortaya çıkması epey normal denebilir. Biz, insanlık olarak varoluşumuzun her şeyi ve herkesi hoşgörülü olarak karşılayacağımız bölümünde değiliz. O yüzden internet gibi bir yer çocuklar için uygun değildir denebilir.

Fakat aynı zamanda internet o kadar faydalı bir araç ki hayattaki hemen hemen her şeyi daha kolay hale getiriyor dolayısıyla toptan yasaklamak da ne mümkün ne de verimli bir eylem. Bir şekilde çocuklar bir yerden internete bağlanmayı başaracaklar ve işin en ilginç tarafı tarihte ilk defa çocuklar ebeveynlerinin gözetimi olmadan istedikleri içeriği izleyip, okuyabilip, görebiliyorlar. Biz ebeveynlere en azından çocuklarının ne okuduğu hakkında bir kontrol hakkı verebilmek istiyoruz. İleriki zamanlarda diğer durumlara el atmak planlarımız dahilinde.

 

C-) Etik bir Endişe

Muhtemelen şunu daha önce duymuşsunuzdur: “Makine Öğrenmesi Mühendisleri çoğu zaman modelin veriden ne öğrendiği hakkında çok az kontrole sahiptir.” Ve bu sebepten ötürü bazen modelimizi ırkçı, seksist ya da homofobik olmaktan kurtarmak biraz zorlaşıyor. Bunun sebebi modelimizi eğittiğimiz veri insanlardan gelmekte ve hepimizin bildiği gibi ne yazık ki insanlar bazen bu kafa yapılarına sahip olabiliyorlar. Örneğin yeterince bozuk veri beslendiğinde bir model her ne kadar öyle olmasa da içinde “gay, lezbiyen, eşcinsel” gibi kelimelerin geçtiği bir cümleyi rahatsız edici içeriğe sahip olarak sınıflandırabilir. Dolayısıyla veri toplarken bu hususa dikkat ediyoruz ama başta da dediğim gibi bazen bu durumu kontrol etmek çok zorlaşabiliyor.

 

 Sonuç

Internet üzerindeki hakaretleri ve zorbalıkları engellemek ve kullanıcıların internetin güzel yanlarından keyif almasına yardımcı olmak amacıyla bir Rahatsız Edici İçerik Tespiti Web Servisi yarattık. Zorlu bir projeydi fakat sonuç buna değerdi.

 

Keywords

Makine Öğrenmesi, Yapay Zeka, YZ, AI, Rahatsız Edici İçerik Tespiti, Zorbalık, Hakaret, Siber Zorbalık, Sansür, Küfür Tespiti, Web Servisi

 

İlke Elvan, Makine Öğrenmesi Mühendisi, VeriUs Teknoloji

 

Write a comment