Clustering (Bölütleme, Kümeleme) yöntemleri (Weka Eğitim Serisi 15)

Рет қаралды 33,966

BilgisayarKavramlari

Күн бұрын

Пікірлер

@muhammedgulcu 9 жыл бұрын

Çok güzel anlatmışınız hocam elinize dilinize sağlık.

@asliluleci8782 4 жыл бұрын

Hocam merhaba k-means algoritmayı spss 25 veya stata programında uygulayabilir miyim? cevap verirseniz çok sevinirim.

@ahmedjamel421 7 жыл бұрын

Hocam merhaba, Weka'da K-Measn algoritmasını kullanarak paralelleştirme işlemi yapılır mı ?

@miraccelikozer5475 8 жыл бұрын

Hocam Merhaba. benim veri setim ile weka ya okutunca k-means aktif olmuyor sebebi ne olabilir sizce? orada class olarak belirdiğiniz şey nedir?

@nurdankolay9495 9 жыл бұрын

Hocam Merhaba Clustering için Weka'da randIndex algoritmasını kullanabileceğim bir tool var mı? Bi araştırma için araştırıyorum veya uyguladığım algoritmanın kümelemede karşılaştırabileceğim kümeleme için doğru bir Algoritma var mı?

@Sadievrenseker_BK 9 жыл бұрын

+Nurdan Kolay Hayır bilebildiğim kadarıyla rand index veya ARI, weka da bulunmuyor. Probleminiz sadece karşılaştırmak ise Weka içerisinde diğer algoritmalara bir şans verebilirsiniz. Ancak R ortamını kullanırsanız orada çok daha geniş bir clustering kütüphanesi var. Wekanın yetersiz olduğu konularda ben de R kullanıyorum ama illaki weka içerisinden randindex kullanacağım derseniz, java ile kodlamanız ve weka'ya eklemeniz de mümkün. Aslında index değeri hesaplarının çoğu (similarity index, benzerlik indeksi) basit kodlanabilir hesaplamalardır. Vakit bulabilirsem bir iki mesafe fonksiyonunun nasıl çalıştığını anlatan bir video çekmeye çalışırım.

@nurdankolay9495 9 жыл бұрын

+BilgisayarKavramları Teşekkür ederim. Javada yazılan kodu wekaya nasıl aktarabilirim? Bir de merak ettiğim birşey var simple Kmeans algoritması neden diğer uzaklıklara göre hesaplanmıyor. Sadece Öklid uzaklığını ya da Manhattan Distance 'ı hesaplıyor. Diğer uzaklıkları kullanmak istiyorum nasıl yapabilirim??

@Sadievrenseker_BK 9 жыл бұрын

+Nurdan Kolay Wekadaki kütüphaneleri javaya çevirebilirsiniz (tersi mümkün değil, tersi için wekaya uygun kod yazmanız gerekir) Nasıl yapıldığını anlatan video bu linkte var: kzbin.info/www/bejne/nZ_PdZVtnd-bpNE ilave olarak chebyshev ve minkowski mesafeleri de vardır, yine bunu da bir weka eğitim videosunda anlatmıştık nasıl hesaplandıklarını ve seçileceklerini. Siz tam olarak hangi mesafe hesaplama yöntemini kullanmak istiyorsunuz?

@muratgul3820 9 жыл бұрын

Hocam Iyi Günler, Bir bank Datasetine K-means ve EM Algorithmalari kullanmaya calisiyorum. Bazi sorularim var, yardimci olursaniz sevinirim. 1. Yes, No Cevaplari-->1, ve 0 a cevirmeme gerek varmi, yoksa gereksizmi? 2. Bazi Atributlarda "Value" yok, o yerleri Soru isareti (?) ile doldursam olurmu? 3.Class Attributu ignore etmem lazimmi Clusteringde? 4. Yaslar, ve Aylik Gelirler var Bunlari Gruplara bölsem daha faydali olurmu? Mesela 18-25, yada 26-31 ... Yardimci olursaniz cok sevinirim. Video Weka ile ilk Adimlar icin gercekten cok iyi.

@Sadievrenseker_BK 9 жыл бұрын

+Murat Gül Merhaba sırasıyla cevaplamaya çalışayım. 1. Clustering için sayısal değere çevirmeniz gerekir. 2. Weka için hem SimpleKMeans hem de EM algoritmaları missing value destekler dolayısıyla ? yazabilirsiniz. 3. Class attributelar birbirine göre sayısal değere dönüştürülebiliyorsa dönüştürülerek kullanılabilir (ilk sorunuzdaki yes ve no gibi polarity (kutupsallık) olabilir veya mesela diyelimki müşterileri riskli, az riskli risksiz gibi sınıflara böldüyseniz bunlara 1, 0.5 ve 0 gibi sayısal değerler verebilirsiniz yani büyüklük küçüklük ilişkisine girebiliyorlarsa, aslında başka durumlar da olabilir belki, veriyi görmek gerekir, ama genel bir cevap istiyorsanız ignore edebilirsiniz de sayısallaştırabilirsiniz de). 4. Clustering için sayısal olarak tutmanızda yarar var, gruplama yapmanın elbette avantajlı olduğu durumlar var ancak genel olarak sayısal durmasında yarar vardır. Diğer videoları da izlerseniz, videoları kısa tutmak için biraz konuları farklı videolara dağıttım oralarda bu soruların da kısmen cevapları var. Ama bilebildiğim kadarıyla sorularınızın cevapları yukarıdaki şekilde. Başarılar

@muratgul3820 9 жыл бұрын

Gercekten cok yardimci oldunuz. Ama cok ufak bi ayrintiyi tam cözemedim. Yes, No cevaplari neden sayilara cevirmemiz gerekiyor? Cogu kiside gördüm ondan sordum ve kendimde öyle yapiorum. Ama neden yapildigini cözemedim. Bi baska sorumda, diyelimi Attributun birisinde 95% evet cevabi var, geri kalani Hayir. Bu Attributu silmekte yarar olabilir diye düsündüm? Düsüncem aceba dogrumu?

@Sadievrenseker_BK 9 жыл бұрын

+Murat Gül Bey, yes no'ları sayıya çeviriyoruz, aslında elimizden gelen herşeyi sayıya çeviriyoruz çünkü kmeans algoritması mesafe ölçerek çalışır ve 1 ile 0 arasında ölçülebilir bir mesafe vardır (veya 0.83332 ile 1 arasında da ) ancak yes ile no arasına cetveli koyup ölçüm yapamayız. Algoritma çalışırken mesafeler üzerinden çalışır. Veri kümenizde o detayı atlamışım, genel olarak cevap vereyim, şayet bir özellikte dominant bir sınıf varsa, yani diğer sınıfları eziyorsa almayabilirsiniz, veya önemsemeyip alabilirsiniz veya en güzeli normalizasyona gidebilirsiniz, böylelikle elinizdeki her sınıftan eşit miktarda eleman var gibi çalışabilir. Ancak kmeans algoritmasında bu genelleme çok çalışmaz. Algoritma zaten ufak da olsa o grupları bulmak istiyor olabilir o yüzden tavsiyem hiç silme yapmadan veriyi olduğu gibi kullanmanız olacaktır. Yine de isterseniz silerek de deneyip sonuçları karşılaştırabilirsiniz. (Tabi bu kabul veri kümenizdeki her özelliğin eşit öneme sahip olduğu düşünülerek yapılmıştır, şayet zaten önemsiz olduğu bilinen bir özellikse silmenizde bir sakınca yok)