maidis / mythes-tr Goto Github PK
View Code? Open in Web Editor NEWTürkçe Eşanlamlı Kelimeler Sözlüğü (Turkish Thesaurus)
License: GNU Lesser General Public License v2.1
Türkçe Eşanlamlı Kelimeler Sözlüğü (Turkish Thesaurus)
License: GNU Lesser General Public License v2.1
Merhaba, ben bu projeyi yeni gördüm ve katkıda bulunmak istiyorum. Acaba kelime eklemek isteyenler için online bir arayüz yapsak ve buradan bulundukları herhangi bir yerden indirme yapmadan katkı yapmalarını sağlasak? Eğer yararı olur derseniz ben böyle bir şeye başlayabilirim.
Mümkün mü bu acaba? Şöyle bir şeyler yazmıştım bir ara konusu geçerken:
Doğrudan LibreOffice veya diğer ofis araçlarında yazılacak bir eklentiyle çevrimiçi olarak kullanılabilir mi bilmiyorum.
Veya doğrudan Vikisözlük'e katkı yapılmasını sağlayıp, sonrasında da bir betikle buradaki içerikten otomatik olarak bir th_tr_TR_v2.dat dosyası üretilebilir mi bilmiyorum.
Bunun dışında Vikisözlük'ü mythes-tr'de kaynak olarak kullanıyorum. Ayrıca projedeki şu anki eş anlamlı kelimeler sözlüğünün büyük bir kısmını oluşturan Kemik dil işleme grubunun verileri de Vikisözlük ve diğer bazı kaynaklardan yararlanılarak oluşturulmuş.
https://plus.google.com/113435503145887565355/posts/af3tzbhF7SV
Bahsetmek için henüz erken ama elektronik ortamda tam denebilecek bir sözlük oluşturmayı başardığımızda matbu bir kitap çıkarmayı da düşünebiliriz.
Bunun için veritabanından otomatik olarak pdf oluşturacak bir betik hazırlanabilir.
http://borel.slu.edu/lsg/index-en.html
http://euler.slu.edu/~scannell/lsg-1.001.pdf
Belgelendirmede okura soru sormuşum :) Bunları yavaştan düzelteyim. İlk sorum şöyleymiş:
Her sözlükte kelime türleri belirtilmemiş. Bunları kesin doğrulukla öğrenmek için ne yapılabilir? Zemberek bunu da yapıyor muydu? Ondan yararlanılabilir mi?
Zemberek'in zemberek/src/main/resources/ dizinin içinde yararlanılabilecek dosyalar var. Bunlara göz atıp mythes-tr/veriler dizinine alacağım. Buradan kelime türlerini elle veya yazacağımız betiklerle otomatik olarak th_tr_TR_v2.dat dosyasına aktarabiliriz belki.
İlk başlarda kısaltmaları da bu sözlükte içermenin iyi olabileceğini düşünüyordum ama zamanla bu fikrimden vazgeçtim. Bunun için LibreOffice'in sunduğu otomatik düzeltme (sanırım ismi buydu) daha uygun olur? Siz ne düşünüyorsunuz?
yy. -> yüz yıl
v -> beş
fe -> demir
tbmm -> türkiye büyük millet meclisi
...
Henüz sözlük için bir lisans seçilmiş durumda değil. Bunu bir an önce belirlemek en iyisi. Hangi lisansı seçmeliyiz fikri olanlar burada paylaşabilir.
Sözlükten herkes yararlanabilsin? Kapalı kaynak yazılım geliştiricileri de yararlanabilsin mi? Diğer projelerde sözlüğü yapılan katkıların ana projeye de gönderilmesi zorunlu olsun mu?
Alternatiflerimiz nelerdir?
Karar verdikten sonra COPYING dosyasını güncellemeliyiz.
Bir süredir yavaşta olsa çok az sayıda kelime içeren J harfi üzerinde çalışıyorum. Daha önceleri benden başka bir kelime katkıcısı olmadığı için kayıt açmamıştım. Ama bugün bu durum değiştiği için bir kayıt açmanın iyi olacağını düşündüm.
J harfini yakın zamanda bitirebileceğimi düşünüyorum ve paylaşmayı gerektirecek kadar çok içerik de olmadığından katkı vermek isterseniz diğer harfleri düşünebilirsiniz.
Bu sözlük eskiden vardı ama şu anki durumu hakkında net bilgi sahibi değilim. En son sürüm sanırım 2013. Bu sürümde Türkçe için sözlük artık tamamen yok veya henüz yerelleştirme çalışmaları tamamlanmadığı şimdilik böyle bir geçici eksiklik var.
Microsoft Türkiye ile konuşup bu durumu netliğe kavuşturabiliriz. Belgelendirmede yararlanılabilecek kaynaklar arasına ekleyebiliriz sözlük hala bulunuyor veya bulunacaksa.
Ayrıca bana pek mümkün görünmese de Microsoft Türkiye'den sözlüklerini bizimle paylaşıp paylaşamayacaklarını öğrenebiliriz? Sözlüğün ham hali olabilir. Veya GIMP'te PS eklentilerin kullanılabilmesi gibi bir çözüm sunan bir eklenti olabilir (PSPI). Sözlüğü oluşturmada nasıl bir yol izlediklerine dair belge, bilgi olur vs...
Z harf aralığı üzerinde çalışmaya başlayacağım. Umarım hızlı ve özgür yazılım topluluğuna layık bir biçimde, kimseye mahçup olmadan bu işten alnımın akıyla çıkarım :)
Edit: kelime-listesi.txt'yi bilgisayarıma indirdim. Bu dosya üzerinde nasıl bir düzenleme, çalışma biçimi yapmam gerekiyor? Wiki'de okudum, fakat benim dikkatsizliğim yüzünden gözümden kaçmış olabilir, nasıl bir form yapısı uygulayacağımı anlamadım; bunu biraz açıklayayım, örneğin aba kelimesi ile wikide örnek verilmiş, verb, noun vs. şeklinde bir biçim belirtilmiş. Bu şekilde mi?
Eş anlamlılar sözlüğü için başlattığınız proje için öncelikle teşekkür ederim. Sözlüğü oluşturma metodolojinizi bilmiyoruz fakat bazı kelimelerde eş anlamlı olmadığını tespit ettiğimiz bazı kelimeler tespit
örneğin:
ait,ilgili
ait,için
ait,ilgilendiren
ait,ilişkin
ait,ilişik
ait,artezyen
ait,baltık
ait,değgin
ait,karayip
ait,mütedair
ait,osmanlı
ait,sakson
ait,türkî
ait,yönelik
Arada Karayip, Osmanlı, Sakson gibi eş anlamlı kelimeler mevcut. Osmanlı ile Sakson kelimesinin eş anlamlı olabileceği sonucu çıkıyor. Aynı şekilde;
sakson,ait ya da osmanlı,ait kelimeleri de bulunmakta.
Sözlük eklere karşı daha dayanıklı olabilir mi? Örneğin köpek kelimesi tanımlı olduğu zaman ayrıca tanımlı olmayan köpekler kelimesi için de öneri yapılabilir mi?
Kelime en yalın haline indirgenip o şekilde eşanlamlı kelimelerine bakılabilir ve bunlar önerilirken uygun ekler almış halde gösterilebilir?
Zemberek veya Hunspell'in yardımı dokunabilir mi? İngilizce sözlükteki durum nedir? Microsoft Word ne yapıyor?
Tabii bu her ek için olmayacak. Örneğin köpekler için itler önerisi mantıklı olacaktır ama köpeklik için kuçukuçuluk diyemeyiz.
Günlüğümdeki aşağıdaki üç yazının bir araya getirilerek README dosyasında birleştirilmesi iyi olur. Hem projeyi günlüğüme bağımlılıktan kurtarmış oluruz hem de insanları üç belgeyi birden okuma zahmetinden kurtarmış oluruz.
Yazıları README'ye aktarırken epey bir sadeleştirme de yapmalıyız. Herkes kolay kolay okumaz roman uzunluğunda bir README'yi. README kapsamı için uygun olmayan yerler olduğuna karar verirsek o bölümler için bir viki sayfası da açabiliriz duruma göre.
Bu durumu takip etmek için bir kayıttır.
Zeki Bildirici Ubuntu Türkiye forumlarında bir başlık açmış, bu içerik daha sonra heartsmagic tarafından ana sayfaya da taşınmış. Sanırım tüm Ubuntu Türkiye topluluğu üyelerinin görmesi için bu yeterli olacaktır.
http://forum.ubuntu-tr.net/index.php?topic=37823.msg454048
Diğer dağıtımlar için de duyuru yaparsanız, takibi için bu kayda ekleme yapabilirsiniz. Ben gördüklerimi ekleyeceğim ileride de.
MoonStar Türkçe Dil Kılavuzu'nu Moonstar Yazılım'dan Müjdat Özalp geliştirmiş. Şu an ise MoonStar sadece sözlük olarak Odesa Yazılım tarafından dağıtılıyor. Odesa Yazılım Moonstar'ın devamı veya yeni hak sahibi mi yoksa sadece veritabanını ve ismini mi kullanıyor bilmiyorum.
Moonstar Yazılım'ın hala bir şekilde devam edip etmediğini öğrenmek ve buradan birilerine ulaşmak lazım eşanlamlı kelimeler sözlüğü veritabanlarından yararlanılmasına izin verip vermeyeceklerini sormak için.
Eğer artık hiçbir hak sahibi yoksa ve veritabanını kullanmamızda hiçbir sakınca yoksa sözlük veritabanını nasıl kullanacağımız konusunda da çalışma yapmamız gerekecek. Ama bu ikinci aşama. İlk önce gerçekten böyle olup olmadığından emin olmamız gerekiyor.
http://www.programlar.com/inceleme/moonstar-sozluk-turkce-dil-kilavuzu.16.1x.1.html
http://sozlukindirr.blogspot.com/2008/12/odesa-moonstar-szlk-34.html
Akademisyenlerle iletişim ilk baştan beridir aklımda ama bu yönde henüz bir adım atmış değilim. Konuya ilgi duyabilecek Türk Dili ve Edebiyatı Bölümü ve Bilgisayar Bilimleri Bölümü akademisyenlerine ve öğrencilerine ulaşsak, konuya kısaca anlatsak. Yardım etmek isterlerse iş bölümü yapsak?
https://github.com/maidis/mythes-tr/wiki/Katk%C4%B1VermeK%C4%B1lavuzu
Yaptığım araştırmalarda Emre Aköz'ün de yoğun bir şekilde bir eşanlamlı kelimeler sözlüğüne ihtiyaç duyduğunu fark ettim. Kendisiyle iletişime geçebilirsek projeye tanıtım alanında ve TDK veya diğer kurumların dikkatini çekmesi yönünde katkı sağlayabilir diye düşünüyorum.
http://www.sabah.com.tr/Yazarlar/akoz/2006/07/14/TDK_nin_asil_yapmasi_gereken
http://www.sabah.com.tr/Yazarlar/akoz/2012/03/09/dil-kurumu-baskanindan-iki-talep
İletişim bilgileri:
E-posta: [email protected]
Faks: 0212 354 36 19
Kısa mesaj: EA yazdıktan sonra boşluk bırakıp mesaj yazılabiliyormuş, 4122'ye gönderilerek. (1,60TL) MH:02165317373
Yapılacak eşanlamlı kelimeler sözlüğü öğrenciler için de güzel bir elektronik kaynak olacaktır. Fatih Projesi bu tip çalışmalara maddi destek sağlıyorsa buna başvurmak için neler gerektiğini öğrenip gereken şeyleri yapmaya çalışabiliriz.
Bu konuda araştırma ve çalışma yapmak istiyorsanız lütfen belirtiniz. Yapacağınız tüm araştırmaları burada veya viki bölümünde belgelemeyi ve iletişime geçmeden önce buradan diğer kişilerden de onay almayı unutmayınız.
Kendi adımın baş harfi olduğundan U harfi le başlamak istiyorum.
Haftada en az 1 saat çalışmayı düşünüyorum.
Ama bu harfte sözcük listesi geniş. Siz de bir aralıkta çalışma yapmak istiyorsanız bu hata kaydına belirtiniz.
Thesaurus hakkındaki görsellere bakarken Laya Steinberg'in yazdığı Thesaurus Rex'e denk geldim. Böyle bir hikaye kitabını mythes-tr kapsamında biz de yapıp çocuklara ulaştırabilirsek güzel olabilir.
Önce hikayeyi oluştururuz. Sonra da çizimleri tamamen sıfırdan yapar veya Open Clip Art Library gibi kaynaklardan yararlanırız.
Thesaurus Rex hakkında daha çok bilgi için:
http://www.layasteinberg.com/LSbooksinprint.html
http://www.dinosaurjunction.com/Shop-for-dinosaur-books/123-thesaurus-rex-book.html
http://www.amazon.com/Thesaurus-Rex-Laya-Steinberg/dp/1841481807#reader_1841481807
http://store.barefootbooks.com/thesaurus-rex-2.html
http://barefootinhighheels.wordpress.com/2008/11/19/thesaurus-rex/
TDK'nın kendi internet sitesi üzerinden kullanıma açtığı ve Dokuz Eylül Üniversitesi Doğal Dil İşleme Takımı işbirliğiyle gerçekleştirdiği bir Eşanlamlı kelimeler sözlüğü bulunuyor. Bu sözlüğün veritabanını kullanımımıza açıp açamayacaklarını sorabilirsek iyi olur.
Buradaki amacımızı güzelce anlatıp her iki tarafla da ayrı ayrı veya aynı anda iletişim kurmak isteyen varsa lütfen bildirsin. Yapacağınız her çalışmayı burada veya vikide belgelendirmeyi unutmayınız.
Sözlükler:
http://www.tdk.gov.tr/index.php?option=com_esanlamlar
http://nlpapps.cs.deu.edu.tr/esveyakin/
İletişim kanalları:
[email protected] [email protected]
http://nlp.cs.deu.edu.tr/index.php/tr/ekibimiz
Hakan Hamurcu ve Zeki Bildirici'nin aracılığıyla Atatürk Üniversitesi Öğretim Görevlilerinden Dursun Balkaya ile iletişim kurduk. Bu konudaki gelişmelerin takibi bu kayıt üzerinden gerçekleştirilebilir.
http://forum.libreoffice.org.tr/viewtopic.php?f=20&t=285
http://www.atauni.edu.tr/#personel=dursun-balkaya
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.