Data Mining Presentation

43 %
57 %
Information about Data Mining Presentation
Education

Published on July 26, 2009

Author: cakirengin

Source: slideshare.net

Description

Veri Madenciliği Nedir?
Örneklerle anlatım...

Engin ÇAKIR

Bilginin Değeri / Verinin Önemi  Yeni ekonomide bilgi, üretimin faktörlerinden birisi  Internet küreselleşmeyi körüklüyor  Rekabet artıyor  Kar marjları düşüyor  Müşteriyi memnun etmek her geçen gün zorlaşıyor  Tüketiciler, müşteriler bilgiyle donanıyor  Sadakatleri azalıyor/azalabiliyor 2

Değişen koşullarla başa çıkmanın çaresi:  Bilgi ile değer yaratmak  Verileri toplamak, bilgi üretme amacına yönelik hazırlamak  Analiz etmek  Elde edilen bilgileri eyleme yönelik olarak kullanmak 3

Dijitalleşmenin etkisi  Büyük miktarlarda verinin çok hızlı bir biçimde  toplanabilmesi  depolanabilmesi ve  analizinin mümkün olması  Bilgiye dönüştürülen verinin  doğru ve zamanında karar alabilmesi için onların kullanıcılara sunulması 4

Veri Madenciliği Nedir?  Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. 5

Veri Madenciliği Nedir?  Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur. 6

Veri Madenciliği Nedir, Ne Değildir?  Ne değildir?  Nedir?  Bazı isimlere bazı yörelerde  telefon rehberinde bir telefona ait numaranın aranması  “Amazon” hakkında bilgi için arama motorunda sorgulama yapmak diğerlerinden daha yaygın olarak rastlama durumu (O’Brien, O’Rurke, O’Reilly… gibi isimlerin Boston bölgesinde daha sık olması gibi)  Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yağmur ormanları ile, Amazon.com gibi) 7

Veri Madenciliği Sihir değildir! Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. 8

Tarihçesi  Veri madenciliğinin kökeni ilk sayısal bilgisayar olan ENIAC’a kadar dayanır.  1946 yılında geliştirilen ve bugünkü bilgisayarların atası olan ENIAC ABD’de II.Dünya savaşı sırasında ABD ordusu için geliştirildi.  30 ton ağırlığa ve 170 m³ hacme sahipti.  Yarım asırlık süre içerisinde bu devasa boyut cebimize girer duruma geldi. 9

Tarihçesi  ENIAC’tan günümüze kadar olan sürede bu evrimin gerçekleşmesi kullanıcı istekleri ile meydana geldi.  Kullanıcıya sunulan yazılımların her geçen gün farklı ihtiyaçlarla büyümesi sonucu, donanıma olan ihtiyaç da doğru orantılı olarak arttı.  Anlaşıldığı üzere bu döngünün anahtarı kullanıcıdır. 10

Tarihçesi  İlk zamanlar sadece karmaşık hesapları yapmaya yarayan bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı.  Bu sayede veri tabanları ortaya çıktı.  Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi.  Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır. 11

Tarihçesi  Kaybedilmek istenmeyen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklandı.  Veri tabanları büyüdü ve buradan bilgiye ulaşmak güçleşti.  Bu safhada veri modelleme kavramı ortaya çıktı.  İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaştı.  Donanımlar da bu gelişmeye ayak uydurdu. 12

Tarihçesi  Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.  İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda şekillendirse de bazı sorunlar da ortaya çıkmaktadır.  Verilerin saklanması, düzenlenmesi, organize edilmesi sorun gibi görünmese de bu kadar çok veri ile sonuca ulaşmak başlı başına bir sorun haline gelmiştir. 13

Tarihçesi  1960’lı yıllarda veri madenciliği kavram olarak kullanılmasa da o dönemlerde bilgisayar yardımıyla yeterince uzun bir tarama yapıldığında istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi.  Bu işleme o dönem veri taraması (data dredging), veri yakalaması (data fishing) gibi isimler verildi. 14

Tarihçesi  1990’lı yıllarda bu işleme Veri Madenciliği denildi.  Geleneksel istatistiki yöntemler yerine, veri analizi bilgisayar modülleri tarafından yapıldı.  Bu tarihten itibaren Veri Madenciliği; veri tabanları ve makine öğrenimi disiplini ile birlikte yol aldı.  Bilgisayarların spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edilmesi ile uygulamalı istatistik ve makine öğrenim kavramları veri madenciliği altında bir araya getirildi. 15

http://www.misjournal.com/?p=738 16

Veri Madenciliği Kullanım Alanları o Bankacılık: Risk analizleri ve usulsüzlük tespiti. o Pazarlama: Çapraz satıĢ analizleri, müĢteri segmentasyonu. o Sigortacılık: MüĢteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi. o Telekomünikasyon: Hile tespiti, hatların yoğunluk o Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri. tahminleri. o Tıp: Tıbbi teĢhis, uygun tedavi sürecinin belirlenmesi. o Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi. o Endüstri: Kalite kontrol, lojistik. 17

Kredi Kartı müşterimiz aylık ortalama harcaması su kadar Vadeli ve vadesiz mevduatı var otomatik ödeme? Konut kredisi almış Hem bireysel hem kurumsal krize rağmen ödemesini aksatmamış müşterimiz Her ay en az Hizmetlerimizin 5 kez uğrar çoğunu yeni bir iş alıyor kuracak Yeni Müşteri! Eski müşterimiz bankaya 4 aydır uğramadı inaktif Otomatik Daima ödeme Promosyon Kuponu kullanır talimatı var Yeni bebekleri oldu Bir zamanlar en iyi müşterimizdi Rakibimizle çalışıyor

Ambardan Madene Veri Ambarı Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, gruplanır Standard form Amaç belirlenir, veri oluĢturulur 19

Bilgi Keşfi: Farklı Alanların Bileşimi Makine Öğrenmesi İstatistik Veri Madenciliği ve Bilgi Keşfi Görüntüleme Veritabanı 20

Bilgi Keşfi sürecinde veri madenciliği 21

Bilgi Keşfinin Aşamaları  Uygulama alanını inceleme  Konuyla ilgili bilgi ve uygulama amaçları  Amaca uygun veri kümesi oluşturma: Veri seçme  Veri ayıklama ve önişleme  Veri azaltma ve veri dönüşümü  incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,  Veri madenciliği tekniği seçme  Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme  Veri madenciliği algoritmasını seçme  Model değerlendirme ve bilgi sunumu  Bulunan bilginin yorumlanması 22

Veri Madenciliği Standard Süreci Bilgi İhtiyacı AMAÇ Veri Kaynakları Veri İnceleme Veri Hazırlama VERİ Kullanma Modelleme Değerlendirme

Veri Madenciliği Süreci  Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir. 24

Veri Madenciğinin Amacı  Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi (ihtiyaç duyulan bilgi)  Kampanya sırasında satış teklifini kabul etme olasılığı yüksek olan müşterileri isabetli tespit edecek modeli kurmak (veri madenciliğinin amacı)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)  Siteden alışveriş yapan ile yapmayan uzun süre kalan ile kalmayanı ayırt edecek faktörleri belirleyecek modeli kurmak 25

Bilgi ihtiyacının belirlenmesi aşamasında  Personel  Veri  mevcut mu, elde edilebilir mi?  Donanım  verilerin depolandığı,  analiz için verinin seçilip yerleştirileceği donanım yeterli mi?  Yazılım  veriye erişmek, analizini yapmak,  raporlama ve sonuçları kullanıma sunmak için uygun mu? 26

1. Aşamada nelere dikkat edilmeli  Fayda/maliyet analizi  Başarı kriterinin belirlenmesi:  ihtiyaç duyulan bilgiyi elde etme derecesi  bu bilginin amaca ne derece hizmet ettiği  kriter sadece modelin tahmin gücünün yüksek olması değil elde edilen bilginin taşıdığı değer  Modelin tahmin gücünün yanı sıra satış başarı oranı nedir?  Sunulan teklifler hangi oranda kabul görmüştür? 27

Veri kaynaklarının belirlenmesi  Veriler hangi kaynaklardan elde edileceğine karar verilmesi  İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi durumunda  hangi ortamda nasıl birleştirileceğine  aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi 28

VERİ KAYNAKLARI - Örnek  E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını artırmak (amaç)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi) VERİ KAYNAKLARI  Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta görüntülediklerinin vb. verilerin tutulduğu dosyalar  Üye müşteri bilgilerinin tutulduğu dosyalar  Alışveriş işlem verilerinin tutulduğu dosyalar 29

Verilerin incelenmesi, anlaşılması  Veri nasıl tanımlanmış  kodlamalar  meta data: veri hakkındaki veriler  Veri kalitesinin incelenmesi  eksik veri olup olmadığına  veri girişinin hatalı olup olmadığına  kodlamalarda uyumsuzluk  meta data hataları 30

Verilerin incelenmesi - kavranması  Verinin keşfi ve hazırlanması  Amaç: başlangıçta veriyle ilgili fikir elde etmek  Tablolamalar Grafikler  OLAP küpleri: Çok boyutlu tablolamalar  Çeşitli kriterlere göre gruplandırmalar  Satış dağılımları    Bölgeler Ürünler veya Şube/mağaza bazında  Ortalamalar, toplamlar, sapmalar 31

2. Aşamada nelere dikkat edilmeli Veri kalitesi  Eksik veri  Veri girişlerinde hata  Kodlamalarda uyumsuzluk  Meta data hataları 32

Verilerin hazırlanması  Hangi veri alanları (değişkenler, sütunlar)  Hangi kayıtlar (satırlar) kullanılacak  Örnekleme  Gözlem sayılarının fazla olması durumunda zaman kazandırır, maliyeti azaltır  Tabakalar; kampanyadan alanları ve almayanları kapsamak açısından önemli 33

Verilerin temizlenmesi  Verinin eksikliği ve veri kirliliğinin giderilmesi  İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi  Tahmin yöntemiyle tamamlanması  Hatalı verilerin  Veri girişi esnasında önlem alma  Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok gözüküyor 34

Yeni veriler oluşturmak  Verileri bazı işlemler yaparak farklı bir veri setine dönüştürmek  logaritma  toplam, bölüm, fark  yeniden kodlama  Faktör analizi ile değişkenleri daha az sayıda boyutlara indirgemek (RFM indeksi gibi) 35

Verileri hazırlarken nelere dikkat edilmeli  Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı  Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı  Eksik verilerin sistematik bir hataya yol açıp açmayacağı kontrol edilmeli  Birbirine eşdeğer tekrar niteliğinde olan veri alanları ayıklanmalı  Eklenecek yeni değişkenin verisini hazırlamak için gereken çabaya değer mi? 36

Modelin oluşturulması  Modelin amacı:  Sınıflandırma  Tahmin  Modelleme tekniği  Modelin varsayımlarının kontrol edilmesi  Algoritmaların seçilmesi  Modelin uygunluğunun test edilmesi  İsabetli tahmin oranı 37

Sürecin ve modelin değerlendirilmesi  Modelin bulgularının incelenmesi  Hangi gruplara ayırmış  Bu grupların özellikleri nelerdir  Model kurma ve bunun için gerekli verilerin elde edilmesi kullanıma hazırlanma sürecinin değerlendirilmesi  İhtiyaç duyulan bilgi gerçekten elde edilmiş mi? 38

Şu Anda!  Elde ne var biliyorsunuz  Modeliniz, modelleriniz, bulgularınız  Nasıl elde ettiğinizi biliyorsunuz  hangi verileri,  hangi aşamalardan geçirip hazırladıktan sonra  hangi modeli, tekniği kullanarak 39

Değerlendirme sonucu alternatifleriniz  Modeli ve bulguları kullanmak  Daha iyi, daha güçlü bir model kurma kararı  Kullanmaya değer bulmamak  Yeni bir veri madenciliği süreci başlatmak 40

Sonuçların Kullanıma Sunulması  Sürecin son aşaması ise sonuçların kullanıma sunulmasıdır.....  BİLGİ 41

Veri Madenciliği Süreci 42

Veri Madencililiği Sisteminin Yapısı Grafiksel Kullanıcı Arayüzü Desen Değerlendirme Veri Madenciliği Motoru Veri Filtreleme Veri BirleĢtirme Bilgi Tabanı Veritabanı veya Veri ambarı Sunucusu Filtreleme Veritabanı Veri Ambarı 43

Veri Madenciliği Uygulama Alanları  Veritabanı analizi ve karar verme desteği  Pazar araştırması  Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi  Risk analizi  Kalite kontrolü, rekabet analizi, öngörü  Sahtekarlıkların saptanması  Diğer Uygulamalar  Belgeler arası benzerlik (haber kümeleri, e-posta)  Sorgulama sonuçları 44

Problemler  Hangi promosyonu ne zaman uygulamalıyım?  Hangi müşteri aldığı krediyi geri ödemeyebilir?  Bir müşteriye ne kadar kredi verilebilir?  Sahtekarlık olabilecek davranışlar hangileridir?  Hangi müşteriler yakın zamanda kaybedilebilir?  Hangi müşterilere promosyon yapmalıyım?  Hangi yatırım araçlarına yatırım yapmalıyım? 45

Pazar Araştırması (1)  Veri madenciliği uygulamaları için veri kaynağı  Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri  Hedef pazarlar bulma  Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları  Müşterilerin davranışlarında zaman içindeki değişiklik  Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik  Çapraz pazar incelemesi:  Ürün satışları arasındaki ilişkiyi bulma 46

Pazar Araştırması (2)  Müşteri profili  Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma)  Müşterilerin ihtiyaçlarını belirleme  Farklı müşterilerin o anki ilgisine yönelik ürünü bulma  Yeni müşterileri hangi faktörlerin etkilediğini bulma 47

Sahtekarlık İncelemesi  Sigorta, bankacılık, telekomünikasyon alanlarında  Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme  Örnek:  Araba sigortası  Sağlık Sigortası  Kredi kartı başvurusu 48

Risk Analizi  Finans planlaması ve bilanço değerlendirmesi  nakit para akışı incelemesi ve kestirimi  talep incelemesi  zaman serileri incelemesi  Kaynak planlaması  kaynakların incelenmesi ve uygun olarak dağıtılması  Rekabet  rakipleri ve pazar eğilimlerini takip etme  müşterileri sınıflara ayırma ve fiyat politikası belirleme 49

Örnek Uygulamalar  Bağıntı “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)  Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”  Regresyon Kredi skorlama (Application Scoring) 50

Örnek Uygulamalar  Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)  Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” 51

Örnek Uygulamalar  İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection  Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” 52

Facebook Adınız ve Soyadınız ile üye oluyorsunuz, Arkadaşlarınızı listenize ekliyorsunuz, Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli konularda hazırlanmış ufak imajlar yolluyorsunuz. http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121 53

Facebook Süper markete gittiniz, tuvalet kağıdı, sigara ve bir de bira aldınız, kartınızı uzattınız kasiyer ödemeyi almak için geçirdi. Kasa bilgisayarı son hızla bankaya ödeme bilgilerini sorarken merkez bilgisayara isim bilginizi yollar, 54

Facebook  Ana bilgisayar isminiz ve satın aldığınız ürünlerin bağlı olduğu ürün grupları ile, facebook da yolladığınız ve aldığınız poke`leri sıklığına göre karşılaştırır.  Elde ettiği veriyi belirli tolerans aralıklarında filtre eder,  En fazla içki veya yiyecek konusunda poke yolladığınız ve en sık iletişimde kaldığınız arkadaşınızı bulur. 55

Facebook  ve daha siz kasiyerin kartınızı geçirdiğini bile algılayamadan önünüzdeki LCD ekranda en yakın arkadaşınız Ahmet`in facebook resmi belirir, Altında da şu yazar: Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi ile Efes biralarınızı yudumlar eski günlerden konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile sadece 2 kontör 56

Hepsiburada.com Örneği  Hepsiburada.com’dan yapılan alışverişler ve sitede yapılan gezintiler log’larda kayıt altına alınıyor.  Ayrıca müşteri profiline bakılarak müşterinin nasıl bir karaktere sahip olduğu bilgisine de ulaşılıyor.  Satışlarını arttırmak isteyen bu portal, müşterileri kazanmak için müşteriye özel kampanyalar gönderiyor.  İşte burada Veri Madenciliği kavramı ile karşı karşıyayız. 57

 Hepsiburada.com Veri Madenciliği ile müĢterinin sitedeki gezintilerine ve profiline uygun olarak mailler gönderilmektedir.  Böylece müĢteriye özel olduğu hissettirilirken; müĢterinin siteden alıĢveriĢ yapması teĢvik edilir. 58

Size Özel Fırsatlar !!! Sn Engin Çakır, Öncelikle Hepsiburada.com'u tercih ettiğiniz için teĢekkür ederiz. SipariĢlerinizde bizi tercih ettiğiniz için aĢağıdaki fırsatlar size özel tanımlanmıĢtır.(*) Size Özel Fırsat HAYAT ATÖLYESĠ % 10 indirim! SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDĠYE ) 85 TL indirim! DIGIPHONE K8800 CARBON ÇĠFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDĠYE ) % 18 indirim! SAMSUNG MÜZĠK MASA STANDI MDS-60 % 75 indirim! BEYAZ KAPLAN % 10 indirim! MobiX-Blue BLUETOOTH FCT CĠHAZI ( KOLAY KULLANIM ) % 10 indirim! AVCININ KADERĠ % 10 indirim! ĠġARET % 10 indirim! ĠNTERAKTĠF ÇĠNCE EĞĠTĠM SETĠ (8 KĠTAP, 8 CD, 8 CD–ROM) % 25 indirim! MELEKLER VE ġEYTANLAR (CEP BOY) % 10 indirim! AÇLIK OYUNLARI % 10 indirim! Size özel tüm fırsatları görmek için tıklayınız. Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriĢ yapıldığı takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alıĢveriĢler için geçerlidir. 59

Sipariş no : 63657082 Sipariş Tarihi : 27.12.2008 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün Adet Gönderilen 1. MOBILLIFE DĠJĠTAL DERGĠ ABONELĠĞĠ (3 AY)-3 Ay 1 1 2. GENERAL MOBILE G777 ( 1 GB HAFIZA KARTI HEDĠYE ) 1 1 Ödeme Şekli : Garanti 6 Taksit Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 0 0,00 TL 6,36 TL 6,36 TL 0,00 TL 0 202,45 TL 202,45 TL 0,00 TL 202,45 TL Toplam İndirim : Ara Toplam : 202,45 TL KDV : 36,44 TL Sipariş Toplamı : Sipariş no : 68156663 6,36 TL 238,89 TL Sipariş Tarihi : 19.01.2007 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün 1. SAMSUNG E900 ( 512 MB HAFIZA KARTI HEDĠYE )-Siyah Adet 1 Gönderilen 1 Ödeme Şekli : Garanti 12 Taksit Bekleyen 0 Birim Fiyat 496,25 TL Günün Fiyatı 496,25 TL İndirim 0,00 TL Toplam (TL ) 496,25 TL Ara Toplam : 496,25 TL KDV : 89,33 TL Kargo Ücreti : 1,98 TL Sipariş Toplamı : 587,56 TL 60

Sipariş no : 21577684 Sipariş Tarihi : 18.11.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : HSBC 8 Taksit Adet 1 1 0 Birim Fiyat 0,00 TL 500,40 TL 500,40 TL 90,07 TL Sipariş Toplamı : Sipariş no : 56932027 Bekleyen Toplam (TL ) KDV : SONY DCR-HC23E VĠDEO KAMERA (MĠNĠ DV) + SONY ÇANTA + SONY 5 ADET DVM 60 BOġ 1. KASET HEDĠYELĠ Gönderile n İndirim Ara Toplam : # Ürün Günün Fiyatı 590,47 TL 500,40 TL ###### Sipariş Tarihi : 09.05.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 8 Taksit Adet Gönderile n Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) COLD COMPRESS-2sn DE BUZ KOMPRES 1. 571142 1 1 0 0,00 TL 6,65 TL 6,65 TL 0,00 TL 2. GUARD OTOMOBĠL BRANDASI 081106-GRUP6 1 1 0 36,20 TL 36,20 TL 0,00 TL 36,20 TL PIRANHA PC1211 2.0 MEGAPĠKSEL AYARLANABĠLEN IġIKLI+DivX KAYIT + 3. MĠKROFONLU + 10X DĠJĠTAL ZOOM + TÜRK 1 1 0 25,27 TL 25,27 TL 0,00 TL 25,27 TL Toplam İndirim : 6,65 TL Ara Toplam : 61,47 TL KDV : 11,07 TL Sipariş Toplamı : 72,54 TL # Ürün 61

 Müşterinin gezindiği siteler kayıt altına alınmış.  Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş yapmamış.  Müşteri siteden daha önce cep telefonu satın almış.  Müşteri teknoloji ürünlerini siteden takip ediyor. 62

Amazon.com Örneği  Ġskandinav ülkelerinin portalı olan Jubii internet sitesi, sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize edebilmek için müĢteri profillerini ve davranıĢlarını belirlediler. Sayfalar yeni müĢteri profillerine göre çalıĢmaya baĢladığında verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve böylece reklam verenler verdikleri reklamlar sonucunda daha fazla ziyaretçi almaya baĢladıklarından Jubii ‘nin karı arttı. Ziyaretçi davranıĢ modelleri Jubii’ye reklam gelirlerini artırma yönünde imkan sağladı. 63

 Bu konuya en güzel örnek www.amazon.com ‘un kullandığı yazılımdır. Amazon.com bu sayede müĢterilerinin davranıĢlarını, hobilerini, isteklerini anlıyor ve zaman zaman müĢterilerine özel ürünler sunuyor. 64

65

66

Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 67

Veri için Model Oluşturma x y f - f* 68

Veriden Öğrenme Verilmiş örnek kümesi X={xt,yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. E t yt f * (x t ) 2 69

Uygulama Tipleri  Sınıflandırma: y in {C1, C2,…,CK}  Regresyon: y in Re  Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı  Öbekleme: x ’leri benzerliğe göre gurupla 70

Örnek birikim OK DEFAULT yıllık gelir 71

Örnek Çözüm x2 : birikim OK DEFAULT 2 1 x1 : yıllık gelir KURAL: EĞER yıllık gelir> 1 VE birikim> 2 ĠSE OK DEĞĠLSE DEFAULT 72

Karar Ağaçları x1 > 1 evet x2 > hayır x1 : yıllık gelir x2 : birikim y = 0: DEFAULT y = 1: OK y=0 2 evet hayır y=1 y=0 73

Öbekleme birikim OK DEFAULT Tip 1 Tip 2 Tip 3 yıllık gelir 74

Veri Görselleştirme  Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.  Verinin yapısının; grupların, istisnaların gözlenmesi 75

Veri Görselleştirme z2 Kural Ġstisna z1 76

Zaman Serisi Tahmini ? zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan GeçmiĢ Discovery of frequent episodes ġimdi Gelecek 77

Metodoloji Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: DeğiĢken sayısı ve değer azaltma En iyi model EğitilmiĢ modelleri deneme kümesi üzerinde dene ve en baĢarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 78

Kestiricileri Eğitmek için Teknikler  Parametrik Çokboyutlu İstatistik  Bellek tabanlı (Örnek tabanlı) Modeller  Karar Ağaçları  Yapay Sinir Ağları 79

Sınıflandırma  x : d-boyutlu değişkenler vektörü  C1 , C2 ,... , CK : K sınıf  Şüphe  Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) 80

Sınıflandırma 81

Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 82

İstatistiksel Yöntemler  Sınıf dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor x Tek boyutlu 1 p (x | C j ) Çok boyutlu p (x | C j ) 2 2 j d 1 (2 ) )2 j 2 j x d /2 exp (x Σj exp 1 (x 2 μ j )T Σ j 1 ( x μj ) 83

Sınıflandırıcıyı Eğitmek  Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N ( j, xt ˆj x t Cj nj ) ˆ j )2 ( xt ˆ j2 j ˆ P (C j ) t x Cj nj nj n Çok boyutlu: p(x|Cj)~Nd ( j, j) xt ˆ μj xt C j nj ˆ ˆ (xt μ j )(xt μ j )T ˆ j2 xt C j nj 84

Örnek: 1 Boyutlu 85

Örnek: Farklı Varyanslar 86

Örnek: Çok Sınıf 87

Örnek: 2 Boyutlu 88

Örnek: Ortak Kovaryans 89

Örnek: Farklı Kovaryanslar 90

Davranışlar ve Riskler i: davranış i ( i|Cj) : Sınıf Cj iken kayıp. i davranışının riski: i davranışını almanın getirdiği R( i |x) = j ( i|Cj) P(Cj |x) En az riskli davranışı seç: R( k |x ) = mini R( i |x ) 91

Regresyon (Fonksiyon Yakınsama) 92

Regresyon yt f (x t | ) gürültü. Doğrusal regresyonda parametreler w,w0 f (x t | w ,w 0 ) wx t E (w ,w 0 ) (y t wx w0 t t E E w E 0, w0 w 0) 2 0 w 93

Doğrusal Regresyon 94

Yüksek Dereceli Regresyon  Örneğin, ikinci dereceden t f (x | w 2 ,w 1 ,w 0 ) w 2 x E (w 2 ,w 1 ,w 0 ) (y t t t2 w 2x w 1x t2 t w 1x t w0 w 0 )2 95

Yüksek Dereceli Regresyon 96

Çok Değişkenli Doğrusal Regresyon (Scoring)  d değişken sayısı t t t f (x 1 , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) t w 1x 1 w 2x 2 t  wd xd t w0 wT x E (w 0 ,w 1 ,w 2 ,  ,w d ) y t t t 1 t t f (x , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) 2 97

Özellik Seçme  Özellikler Altkümesi Seçimi İleriye veya Geriye doğru seçim  Doğrusal İzdüşüm Temel Bileşenler Analizi (PCA) Doğrusal Ayırıcı Analizi (LDA) 98

Sıralı Altküme Seçimi Ġleriye Doğru Seçim (x1) (x2) (x 1 x 3 ) (x3) (x4) (x2 x3) (x1 x2 x3) (x 3 x 4 ) (x2 x3 x4 ) Geriye Doğru Seçim (x 1 x 2 x 3 x 4 ) (x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4) (x2 x4) (x1 x4) (x1 x2) 99

Temel Bileşenler Analizi (PCA) x2 z2 z2 z1 x1 z1 BeyazlaĢtırma 100

Doğrusal Ayırıcı Analizi (LDA) x2 z1 z1 x1 101

Bellek Tabanlı Yöntemler  Örnek tabanlı karar verme  En yakın komşu algoritması  Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 102

En Yakın Komşu x2 x1 103

Yerel Regresyon y x Uzmanların BirleĢimi 104

Eksik Veri  Eksik veri olan kayıtları çıkar.  Ortalama ile doldur.  Diğer değişkenler cinsinden regresyon ile doldur. 105

Karar Ağaçlarının Eğitilmesi x1 > x2 1 evet x2 > hayır 2 evet hayır y=1 y=0 y=0 2 x1 1 106

Düzensizliğin Ölçülmesi x2 x2 x1 x1 7 0 1 9 8 5 0 4 107

Entropi e n left n left log n n n right n right log n n 108

Yapay Sinir Ağları x0=+1 x1 x2 w1 w2 g wd xd y w0 y g (x 1w 1 x 2w 2  w 0 ) g ( wT x) Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 109

Yapay Sinir Ağının Eğitilmesi  d değişken o g ( wT x ) g d i 0 Öğrenme kümesi: wixi X x ,y t t X üzerindeki hatayı en aza indiren w ’yi bul 2 E (w | X ) y t X t o t 2 yt t X g i wixi 110

Doğrusal Olmayan En İyileme E Wi wi E wi Eğim iniĢ: Tekrarlı öğrenme öğrenme hızı 111

Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1,..,K çıktı Her oj , P (Cj|x)’yi kestirir oj sigmoid ( wTj x ) 1 1 exp( wT x ) j 112

Çok Sınıflı Doğrusal Yapay Sinir Ağı o2 o1 oK wKd x0=+1 o t j x1 xd x2 T j t g (w x ) g d i 0 w ji x t i 113

Tekrarlı Öğrenme X xt , yt E (w | X ) y t o tj j t j o t 2 j g ( wTj x t ) w ji Doğrusal Doğrusal olmayan E w ji E oj oj w ji t y tj o tj g ' ( )x i w ji y tj o tj x i w ji y tj o tj o tj (1 o tj )x i 114

Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 115

Çok Katmanlı Yapay Sinir Ağı (MLP) o2 o1 oK tKH o h h2 h1 hH h0=+1 x0=+1 x1 x2 t j t p g H p 0 t t jp h p sigmoid d i 0 w pi x it wKd xd 116

Olasılık Ağları Dyspnoea: Nefes Darlığı p ( ) 0.1 p ( | ) 0.05, p ( | ) 0.1,... 117

Modelleri Değerlendirme 1. 2. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? M1 , M2 , ..., ML arasında en iyisi hangi modeldir? 118

Çapraz Geçerleme 1 1 2 3 2 k-1 k 3 k-1 k k kere tekrar et ve ortalama al 119

Modelleri Birleştirme: Neden? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 120

Modelleri Birleştirme : Nasıl? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 121

Kredi Skor Hesabı (Credit Scoring)  Başvuru (application) ve davranış (behavioral) skor hesabı  İstatistiksel bir model olarak skorkartı  İyi ve kötü risk müşteriler  Alanların doğrusal toplamı: Kredi kartı var mı? Evet: +50 Hayır: –20 122

Kredi Skor Hesabında Kullanılan Alanlar  İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl  Ev durumu: Sahip, kiracı, diğer  Postakodu: Kodlanmış  Telefon: Evet, hayır  Yıllık gelir: Kodlanmış  Kredi kartı: Evet, hayır  Yaş: 18-25, 26-40, 41-55, 55+ yıl  Meslek: Memur, işçi, serbest, işsiz, ...  Medeni hali: Evli, bekar, diğer  Bankanın müşterisi olduğu zaman: yıl  Çalıştığı kurumda çalışma zamanı: yıl 123

Kredi Skor Hesabının Yararları  Daha doğru karar vermeyi sağlar.  Skorkartı standardizasyon ve nesnel karar getirir.  Hızlı ve ucuzdur.  Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır.  Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir. 124

Sepet Analizi (Basket Analysis)  X ve Y malları arasındaki ilişki  X, Y: 0/1 Destek (Support): P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı Güven (Confidence): P(X|Y)=P(X ve Y)/P(Y) = X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı 125

Sepet Analizi  X, Y beğeni değerleri  Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))  Cov(X,Y)=E[(X-mX) (Y-mY)] 126

Sonuçlar: Verinin Önemi  Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır.  Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır.  Veri madenciliği simya değildir; taşı altına döndüremeyiz. 127

Sonuçlar: Uzmanın Önemi  Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır.  Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir.  Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir. 128

Sonuçlar: Sabrın Önemi  Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.  Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur. 129

Tekrar: Madencilik için Gerekenler  Çok miktarda kaliteli veri  İlgili ve bilgili uzmanlar: 1. Uygulama alanı 2. Veri Tabanları (Veri Ambarcılığı) 3. İstatistik ve Yapay Öğrenme  Zaman ve sabır 130

TEŞEKKÜRLER Engin ÇAKIR 131

Add a comment

Related presentations

Related pages

Data Mining Presentation by Ruize Lu on Prezi

Invited audience members will follow you as you navigate and present; People invited to a presentation do not need a Prezi account; This link expires 10 ...
Read more

Most Popular Slideshare Presentations on Data Mining

SlideShare data mining presentations cover many topics, offering a unique way of consuming data mining content and exploring a variety of slideshows, both ...
Read more

PowerPoint Presentation - Department of Computer Science

Title: PowerPoint Presentation Last modified by: Computer Science Department Created Date: 1/1/1601 12:00:00 AM Document presentation format: On-screen Show
Read more

Data Mining Presentation - Scribd

Data Mining Presentation - Free download as Powerpoint Presentation (.ppt), PDF File (.pdf), Text File (.txt) or view presentation slides online.
Read more

Data Mining (with Many Slides due to Gehrke, Garofalakis ...

Data Mining (with many slides due to Gehrke, Garofalakis, Rastogi) Raghu Ramakrishnan Yahoo! Research University of Wisconsin–Madison (on leave)
Read more

Data Mining Paper Presentations - UVM

Data Mining Paper Presentations Spring 2016 Please refer to the Research Guide for information about what to say in a good talk. If a paper/book does not ...
Read more

Data Mining class presentations (1) - YouTube

Data Mining class presentations (15) - Duration: 28:23. Anwar Dafa-Alla 52 views. 28:23 Data Mining Case Study meetup: Data Mining Overview ...
Read more