Veri Bilimi Yazılım Geliştirme Yaşam Döngüsü

Veri Bilimi Yazılım Geliştirme Yaşam Döngüsü

By In Big Data On 30 Ocak 2014


Yazılım geliştirme yaşam döngüleri (software development life cycle) günümüzde yazılım mühendisliği disiplininde yazılım geliştirme süreçlerini modellemek için sıkça kullanılan bir tabirdir.

Peki Big Data – Büyük Veri ile uğraşan veri bilimciler veri odaklı yazılımları geliştirirken benzer süreçleri kullanıyorlar mı ?

Elbette veri bilimciler de yazılım mühendisliği disiplininde olduğu gibi bir yaşam döngüsü içinde geliştirmelerini yapıyorlar. Şimdi gelin bu yaşam döngüsünü inceleyelim.

Veri bilimcisi öncelikle “Veri toplama” adımıyla başlıyor. Bu adımda kullanacağı veri kümelerini seçmeye başlıyor. Örneğin online satış yapan bir web sitesiyle ilgili çalışmalara başlayabilmesi için müşteri ilişkileri verilerine ihtiyacı olacak. Aynı zamanda web sitesi ziyaretçilerinin bilgilerine de erişebilir olmalı. Bahsettiğimiz veri kaynaklarını müşteriden dosya şeklinde veya CANLI olarak alabilmeli.

Veri toplama adımı tamamlandıktan sonra veri bilimcisi(Data Scientist), Veri Yükleme ve Zenginleştirme (Load and Transform/Enrich) adımına geçebilir. Bu adımda ise bir önceki adımda tanımladığı veri kaynaklarını birleştirecek, yani biz bu işleme zenginleştirme diyoruz, veri kalitesini sorgulayacak yani eksik bilgileri var mı bunları düzeltecek, tarih formatlarıyla ilgili dönüştürme(transformation) işlemlerini gerçekleştirecek ve sonuçta birleştirilmiş/zenginleştirilmiş/dönüştürülmüş hedef veri kümesini oluşturacak.

Veri Yükleme ve Zenginleştirme adımı veri bilimcisi için çok önemli bir yaşam döngüsü adımıydı. Bu adımdan sonraki adımlar veri bilimcisinin, “bilimsel”, olarak nitelendirdiği bir takım işlemleri tanımlıyor. Literatürde ve sektörde bu adıma “Predictive Analytics”, “Machine Learning Techniques” uygulamaları deniyor. Yapılan özet olarak birleştirilmiş bilgiyi kullanarak “korelasyon”, “sınıflandırma”, “kümeleme” fonksiyonlarını icra ederek MODEL oluşturmak. Peki bu bize ne kazandırıyor ? Bu metodların uygulanmasıyla elimizdeki veriyi kullanarak bir takım sonuçlara varmak olabilir veya yeni bir veri seti geldiğinde metodların uygulanmasından oluşan modeli kullanarak TAHMİN etme gücümüzü göstermek olabilir.

Analiz ve Tahmin adımında veriyle ilgili epey bilgi edinmiş olduk. Böylece karar verme mekanizmalarımız güçlenmiş oldu. Belki de daha ileri giderek yeni ürünler ve hizmetler üretme şansını müşterimize sağlamış oluyoruz. Veri bilimcisi bu aşamada yaşam döngüsünü sonlandırmış oluyor. Ancak mühendisler ve operasyonları icra eden ekipler, veri bilimcinin üretmiş olduğu modelleri gerçek uygulamaya yerleştirmek zorunda. Bunun için yaşam döngüsüne “Uygulama yükleme ve çalıştırma” adımını eklememiz gerekiyor. Böylece üretilen modeller canlı yazılım üzerinde çalışacak ve firmanın yazılım yaşam döngüsü içinde yer almış olacak.

Toparlarsak bir Big Data – Büyük Veri – Yazılım Geliştirme Yaşam Döngüsü aşağıdaki adımlardan oluşmaktadır.

1. Veri Kaynakları Keşfi / Toplama

2. Veri yükleme ve zenginleştirme

3. Analiz ve Tahmin

4. Uygulama yükleme ve Çalıştırma


Related Posts