Öncelikle soruları soralım: Noam Chomsky ile bilgisayar mühendisliğinin ne ilgisi var? Arkeolojik bulgu ve buluntularla bilgisayarların ne ilgisi var?
Bir yanda dilbilimci ve siyaset bilimci bir bilim adamı, diğer yanda elektronik bir alan ve bir yanda tarihi ve coğrafi bir alan, diğer yanda çağdaş bir teknoloji. Aralarındaki bağı kurmanın yolu bilgisayarlar ile anlaşabilme yöntemleri ve bilgisayarların insanlar arasındaki elçi görevini görmeye başlamasını anlamaktan geçiyor. Açalım, yapısal bir kurallar bütünü ile bilgisayarları programlamak ve yapısal ya da istatiksel yöntemler ile bilgisayarların kendiliğinden hizmetler sunmasını sağlamak gayeleri, bizleri bugünkü programlama ve web ortamına sürüklerken sosyal bilimlerden fazlasıyla destek almış ve esinlenmiştir.
Pekala şimdi de biraz, L. L. Zamenhof’tan bahsedelim. 19. yüzyılın sonunda Esperanto dilini tasarlayan bu iyimser göz doktorunun tek derdi elbette tüm hastaları ile kolayca anlaşmak değildi. Dünya üzerindeki herkesin anlayabileceği ve konuşabileceği bir dil yaratmak amacındaydı. Esperanto (umut eden anlamına gelir) dilini tasarlayan Zamenhof’un düşüncesinde ortak bir dil küresel çaptaki çatışmalara ve savaşlara neden olan sorunları da çözebilirdi. Esperanto daha çok Avrupa dillerinden alınan kelimelerin basit dilbilgisi kuralları ile donatılması sonucu oluşan bir dildi. Başarısız olduğu söylenemez, zira Esperanto dilindeki Vikipedi ile Türkçe Vikipedi aynı sayıda madde aralığındalar.
İnsanoğlunun konuşma dilini sadece sohbet için değil, bilimsel araştırmalar için de kullandığı ve bu zor alanda ortak bir dil yaratma sürecinin Latince’nin bilimsel bağlamda kabulü ile sonlandığını az çok herkes bilir. Bunun yanında günümüz insanının dil serüveni, Aydınlanma Çağı’ndaki insanların bilim aşkı ile atbaşı gitmiyor. Şimdilerde tepe tepe kullandığımız Internet’in çağındayız ve ortak dilimiz çok açık bir şekilde İngilizce. Burada sadece Internet’i düşünmezsek, örneğin 1900′lerin ilk yarısındaki Fransızca hakimiyetinin diğer alanlarda da İngilizce’ye geçtiğini görürüz. Artık tek dilliliğin, üniversitelere gelen siyasetçi ya da diğer konuklara “Neden İngilizce eğitim alıyoruz?” sorusunu sormanın zamanı geçmiştir. Yaşantımız eğer bir dünya insanı olmaya doğru evriliyorsa, bildiğimiz lisan sayısının bize olan katkısı yadsınamaz.
İnsanın insanla ve insanın bilgisayarla anlaşması için anadilinin dışına çıkması durumunun tek çözümü daha güçlü çevirmenler, bilgisayar alanındaki terimsel ifadesi ile “compiler/interpreter” program ve yazılımlar. Daha güçlü çevirmenin ve daha iyi çevirme yöntemlerinin programlama dillerindeki karşılıkları Java’daki bytecode ya da ortak doküman verisi tanıma standartları gibi kavramlar olabilir. Chomsky ve diğer dilbilimcilerin bilişime katkıları burada değerleniyor. Ancak insanın insanı anlaması için gerekli olan daha güçlü çevirmenin ve daha iyi çevirme yöntemlerinin karşılığı için arkeolojik bulgu ve buluntulara bakmamız gerekecek.
İnsan hiç bilmediği bir dili ve belki de abeceyi çözmek için nereden başlayabilir? Başlama noktası eldeki metnin bir dökümünü yapmak olabilir. Belirlenen bir kaç sözcük çözüldükten sonra gerisinin gelmesi kolaylaşır. Burada hata oranı ve istatiksel bilgi önem kazanıyor. Yani şunu anlamamız gerekecek, yabancı dildeki bir metni çözerken dilbilgisi kuralları ile hareket etme serbestisi yoksa, yapacağımız istatiksel eşlemeler kullanmaktır. Tıpkı Vilhelm Thomsen ve Vasili Radlof’un Orhun Yazıtları için yaptıkları gibi, anahtar bir kelimeyi çözmek, onlarınki Tengri idi. Buradan geleceğimiz nokta, çevrimiçi tercüme uygulamalarının çalışma biçimidir. En çağdaş olanını ele alalım: Google Translate!
Google Translate, istatiksel makina çevirisi (statistical machine translation) denilen bir yaklaşım kullanır. Bu yaklaşım şöyle özetlenebilir, çeviriler, parametreleri çift dilli metin gövdelerinin (bilingual text corpora) analizinden türetilen istatistiksel modeller temelinde oluşturulur. İstatistiksel yaklaşım kural temelli ve örnekleme temelli yaklaşımlardan farklılık gösterir. Bu farklılıklar, kural temelli yaklaşımda gözlenen dilbilgisi kurallarının manuel olarak belirlenmesi zorluğunun ve örnekleme temelli yaklaşımda gözlenen birebir dil eşleme kısıtının bu yaklaşımda olmamasıdır. İstatistiksel yaklaşımda temel alınan parametre, anadildeki e metninin yabancı dildeki tercümesinin f metni olma olasılığıdır. Google’ın kullandığı bu yaklaşımın Google’daki yöneticisi, 2003 yılında hızlı makine tercümesi dalındaki DARPA yarışmasını kazanan Franz-Josef Och’tur.
Och’a göre, bir çift dil için en başından kullanışlı bir istatiksel makine tercüme sistemi geliştirmenin gerçek temeli bir milyondan daha fazla sözcükten oluşan çift dilli metin gövdelerine ve her biri bir milyardan daha fazla sözcükten oluşan tek dilli iki metin gövdesine sahip olmaya bağlıdır. Bu büyüklükteki bir veriden elde edilen istatistiksel modeller bu diller arasındaki çeviride kullanılabilir. Google bu denli büyük bir veri havuzunu oluşturmak için Birleşmiş Milletler’in ve Avrupa Birliği’nin dokümanlarından ve “daha iyi çeviri öner” seçeneğinden gelen çevirilerden yararlanmakta. Bu çalışmaları yöneten Och, ki sadece 2,5 dil bilen bir insan, gibi diğer çalışanlar da bilmedikleri dillerde modelleme sonuçlarını test ediyorlar. Örneğin, İngilizce – Çince çeviri aslında Çince bilmeyen bir mühendisin sorumluluğunda geliştiriliyor.
Peki Google elde ettiği bu gücü nasıl kullanacak? Bilimadamlarının Latincesi gibi, biz ve bizden sonraki Internet yerlilerinin ortak anlaşma dili İngilizce yerine tercüme tabanlı bir Internet ortamında dilsizlik mi olacak? Sözgelimi, Google Chrome bizim IP ve DNS ayarlarımızdan hangi ülkeden bağlandığımıza göre gezindiğimiz sayfayı bizim dilimize mi çevirecek? Ya da yanımızda taşıdığımız cep bilgisayarımız bir Babel Fish mi olacak?
Google Translate’a ancak 12. safhada Arnavutça, Galiçyaca, Maltaca, Estonyaca, Macarca ve Tayca dilleri ile katılan bir dilin konuşucusu olarak, bu yazdıklarım umarım “Neden İngilizce öğreniyoruz?” diyen kafalara hangi dilde olursa olsun çalışmanın getirisini gösterebilmiştir. Bir de öyle konuşanlara vereceğiniz yanıt, “Q klavye kullanıyorsan konuşma kardeşim” olsun.
Eksiğim ve yanlışım varsa düzeltin lütfen.