Büyük veri
akıllı cihazlar tarafından toplanan büyük veri yığınları Vikipedi'den, özgür ansiklopediden
Bu madde, Vikipedi biçem el kitabına uygun değildir. (Şubat 2013) |
Günümüzde bilgi toplumunun unsurlarını hayatın her alanında görmek mümkündür. Artık çoğu insanın cebinde bir akıllı telefon, çoğu insanın da, evinde bir bilgisayar ve tüm şirketlerin arka ofislerinde bilgi teknolojileri yönetimini yapan birimler bulunmaktadır. Ancak bilginin kendisi o kadar görünür değildir. Bununla birlikte bilgisayarların insan hayatına girmesinden ancak yarım asır sonra bilgi miktarı anlamlı ve özel bir nitelik kazanacak şekilde toplanmaya başlamıştır. Günümüzde sadece bilgi miktarı artmamış aynı zamanda bilgiye erişim hızı da artmıştır. Niceliksel değişiklik beraberinde niteliksel değişikliği de getirmiştir. Verinin manalı bir bütün oluşturacak şekilde toplanması ilk önce astronomi ve genetik alanında gerçekleşmiştir. Büyük veri kavramı da ilk olarak bu alanlarda kullanılmış daha sonra bu kavram her alan için kullanılmaya başlanmıştır. Büyük veri artık hayatımızın her alanında kendini göstermeye başlanmıştır. Örneğin; Ínternet arama motoru Google'dan hastalıkların teşhis ve tedavisi, İnternet üzerinden alışverişlere kadar her alanda büyük veri karşımıza çıkmaktadır.[1]
Büyük veri; toplumsal medya paylaşımları, ağ günlükleri, bloglar, fotoğraf, video, log dosyaları gibi değişik kaynaklardan toparlanan tüm verinin, anlamlı ve işlenebilir biçime dönüştürülmüş biçimine denir. Olageldiği gibi, ilişkisel veri tabanlarında tutulan yapısal verinin dışında kalan, son dönemlere dek çok da kullanılmayan, yapısal olmayan veri yığınıdır. Artık yıkılmış olan yaygın bilişimci inanışına göre, yapısal olmayan veri, değersizdi, ama büyük veri bize bir şey gösterdi o da günümüzdeki bilgi çöplüğü diye adlandırılan olgudan muazzam derecede önemli, kullanılabilir, yararlı yani çöplükten hazine çıkmasına neden olan yegane sistemdir. Büyük veri; web sunucularının logları, İnternet istatistikleri, sosyal medya yayınları, bloglar, mikrobloglar, iklim algılayıcıları ve benzer sensörlerden gelen bilgiler, GSM operatörlerinden elde edilen arama kayıtları gibi büyük sayıda bilgiden oluşuyor.
Büyük veri, doğru analiz metotları ile yorumlandığında şirketlerin stratejik kararlarını doğru bir biçimde almalarına, risklerini daha iyi yönetmelerine ve inovasyon yapmalarına imkân sağlayabiliyor.
Şirketlerin çoğu, halen konvansiyonel veri ambarı ve veri madenciliği yöntemleriyle elde ettikleri datalardan yola çıkarak, karar almaya devam ediyorlar. Ancak, tüketici eğilimlerini dinamik şekilde öngörebilmek, büyük veriyi analiz edebilmekten ve bu analizlere göre hareket edebilmekten geçiyor. Büyük veri, geleneksel veritabanı araçları ve algoritmaları ile işlemesi zor olan bu büyük verinin oluşturulması, saklanması, akışı, analiz edilmesi gibi birçok konuyu içeren bir terim olarak karşımıza çıkmaktadır. Veriler klasik veri tabanlarının kaldıramayacağı büyüklükte olduğu gibi verinin büyüme hızı da bir bilgisayar veya bir veri depolama ünitesini aşmaktadır. 2012 rakamları ile dünyada günlük 2.5 Kentirilyon byte veri üretilmektedir. Bu çapta büyük veriyi işleme, transfer etme gibi işlerin tümüne Büyük veri (Big Data) adı verilmektedir.
Günümüz veritabanları bu çapta büyüyen verileri tutmakta yeterli değildir. İlişkisel veritabanları gigabyte seviyesinde veri tutabilirken, büyük data ile petabyte seviyelerinde veriler saklayabiliriz. Ancak büyük data sadece yığın işleme(Batch) işlemleri için uygundur. Transactions gibi gelişmiş veritabanlarında kritik öneme sahip özellikler yoktur. Veritabanları okuma, yazma güncelleme gibi işlemleri transactionlar aracılığı ile yapabildiği için bu işlemler atomik olarak kabul edilir ve çeşitli kilitleme mekanizmaları ile verinin birden fazla işlem tarafından değiştirilerek tutarsızlaşması engellenir. Büyük veri bir kere yazılıp defalarca okuma işlemi yapıldığı durumlarda kullanılması gerekir. Çünkü veriler birden fazla yerde paralel olarak işlenir. Bu büyüklükte veri RFID sensörlerinden, sosyal medyaya, hastanelere kadar birçok alanda üretilmektedir. DNA dizilişlerinin analizi, hava durumu sensörlerinden gelen veriler başta olmak üzere verileme işlemlerinin yapıldığı birçok alanda büyük veri bir ihtiyaç olarak karşımıza çıkmaktadır.
2009 yılında domuz gribi olarak adlandırılan salgının (H1N1 virüsü) 1918 yılındaki İspanyol gribi salgınının korkunç hatıralarından dolayı dünya kamuoyunda ciddi bir endişe yarattığı dönemlerde Google bilimsel dergi Nature'da önemli bir araştırma yayımladı. Araştırmanın temeli insanların İnternet üzerinde yaptıkları aramalara dayanan matematiksel modeller ile gribin ABD'de hangi bölgelere ve hangi yoğunlukta yayıldığını tespit etmekti. İnsanların grip belirtileri başladıktan birkaç gün sonra doktora gitmeleri konuyla ilgilenen sağlık kurumlarının ellerindeki verilerin sağlıklı olmaması gibi bir sonuç doğurmaktaydı. Google elindeki muazzam veri tabanı ve veri işleme kapasitesiyle Amerikan sağlık otoritelerinden daha etkili bir şekilde hastalığın yayılmasıyla ilgili bilgilere ulaşabilmekte idi. Bunun için 450 milyon farklı matematiksel model kullanıldı ve arama terimleri CDC 2007 ve 2008 yılındaki gerçek grip vakaları ile karşılaştırıldı. Sonuç olarak 45 arama terimi ile resmi yayılma oranları arasında çok güçlü bir korelasyon olduğu tespit edildi. Büyük veri iş dünyasında önemli yeniliklerin ortaya çıkmasına neden olmuştu. Uçak biletlerini alınması büyük veri kullanımına güzel bir örnek olmaktadır. Google tarafından ortaya konulan araştırma İnternetin bu zamana kadar kamu sağlığı kapsamda kullanılmayan önemli bir yönünü ortaya koymaktaydı. İnternet arama motoru devinin elindeki veri insanlık için çok kıymetli yenilikçi mal ve hizmetlerin ortaya çıkmasına sebep olmaktaydı.[2]
İşleme gücü ve veri depolamanın birkaç yıl öncesine kadar çok pahalı olması bu tür yeniliklerin ortaya çıkmasını zorlaştırmaktaydı. Ancak gerek teknolojinin gelişmesi gerekse zihniyet değişikliği veriyi önemli bir ekonomik değeri olan önemli bir iş girdisi şekline dönüştürmüştür. Bilgisayarlar bundan 50 yıl öncesinde insan hayatına girmiş olmasına rağmen toplanan veri miktarı ancak bu minvaldeki büyük değişikliklere sebep olacak seviyeye son birkaç yıl içinde ulaşmıştır. Genom olarak adlandırılan genetik haritamız 2003 yılında çizilmiş ancak 3 milyar çiftten oluşan halkaların sıralanabilmesi 10 yıl kadar sürmüştür. Bugün bu sayıdaki DNA'lar sadece bir günde sıralanabilmektedir. ABD'de her gün yaklaşık 7 milyar hisse senedi el değiştirmekte ve bu işlemlerin üçte ikisi devasa verileri analiz matematiksel modellere dayanan algoritmalar tarafından yapılmaktadır.
İnsanlık tarihinde bilgi üretiminin üssel olarak arttığı bazı dönemler bulunmaktadır. Matbaanın Avrupa'da kullanılmaya başlamasından itibaren birkaç on yıl içinde basılan kitap sayısı o zamana kadar tüm Avrupa da basılan kitap sayısından daha fazla bir sayıya ulaştı. Veri işleme ve depolama teknolojilerindeki gelişmelerle birlikte sadece birkaç yıl içinde üretilen veri bu zamana kadar üretilen tüm analog ve sayısal verinin birkaç katına ulaşmaktadır. Daha önceleri veriye ulaşma ve ulaşılsa bile veri işleme vasıtalarındaki kısıtlardan dolayı tercih edilen “örnekleme” modeli artık yerini tüm verinin analiz edildiği ve böylece çok daha doğru ve detaylı analizlere ulaşılabilen yeni bir döneme yerini bırakmaya başlamıştır.
Özellikle sosyal bilimler alanında insanlar arama yaptıkları terimler ya da Facebook gibi sosyal paylaşım sitelerindeki “beğen” tıklamaları insanların tercihleriyle ilgili önemli ipuçlarını ortaya koymaktadır. Bu veri özellikle şirketlerin pazarlama stratejilerinde çok önemli bir girdi olarak yerini almaya başlamıştır. Devasa verilerin artık çok aha etkin bir şekilde işlenebilmesi ticari hayatın pek çok alanını derinden etkilemiştir. Verilerden elde edilen korelasyonlar Walmart ve Amazon.com gibi pek çok ülkenin milli hasılasından daha fazla satış yapan şirketlerin ortaya çıkmasına neden olmuştur. Artık elde edilen ve işlenen veriler ile korelasyon temelli bir dünyaya gidildiği yönünde değerlendirmeler yaygınlık kazanmaktadır. Bu değerlendirmelere göre verilerin kısıtlı olduğu eski zamanlarda bilim adamları teorilere ihtiyaç duymaktaydı ama günümüzde artık veriler konuşmakta ve teorilere ihtiyaç bulunmamaktadır. Bu yüzden bilimsel metodolojinin de İnternet vasıtasıyla elde edilen veriyi işleme kapasitesine sahip bilgisayarlar sayesinde değişeceği iddia edilmektedir. Artık korelasyonun nedenselliğin yerini alacağı ve niçin sorusundan ziyade “ne” sorusunun önem kazanacağı ifade edilmektedir.[3]
İnternet'in şüphesiz en önemli katkılarından birisi bilgiye erişim noktasındadır. Bilgi çeşitli formlarda sunuluyor olmasına rağmen klasik yöntem olan kitaplar vasıtasıyla bilgiye erişim konusunda da İnternet çok önemli gelişmelere vesile olmuştur. Kitapların İnternet üzerinden araştırılması ve adrese teslim edilmesi İnternet öncesine göre çok önemli bir katkı olarak karşımıza çıkmaktadır. Ayrıca kitapların google gibi şirketler tarafından dijital ortama aktarılması kitaplara erişim konusundaki sınırları ortadan kaldırmaktadır. Bu zamana kadar 130 milyon başlıkta farklı kitabın yayımlandığı ve bu kitapların yaklaşık 20 milyonunun (yaklaşık %15) Google tarafından dijital ortama aktarıldığı görülmektedir. İnternet vasıtasıyla bilgi toplama sadece pasif bir toplayıcı olmaktan öteye gitmektedir. Örneğin ReCaptcha denilen bir uygulamada kullanıcıların gerçek insanlar olduğunu doğrulamak için daha önce rastgele harflerin yazılmasıyla yapılan doğrulamaların hem bu amacın gerçekleştirildiği hem de bilgisayarlar tarafından okunamayan kelimelerin ücretsiz olarak kullanıcılar tarafından okunduğu görülmektedir. Böylece güvenlikle ilgili bir yeniliğin katma değeri olan başka bir uygulamaya evrildiği görülmektedir. Bu örnek veri toplama ve kullanımıyla ilgili tüm alanlarda görülmektedir. Veri bir defa kullanılıp atılan ya da zamanla değeri kaybolan bir ticari emtiadan ziyade gelişen teknoloji ile her zaman yeni kullanım alanları bulan bir varlık konumundadır. Google'nin sokak görüntüleri için topladığı devasa bilgi sadece Google Earth uygulaması için değil aynı zamanda GPS hizmetleri için kullanılmaya başlanmıştır. Şirket ayrıca sokaklardaki Wi-Fi bağlantılarının envanterine de sahip olmuştur. Arama motorlarında yapılan aramalar buna güzel bir örnek teşkil etmektedir. Arama motorlarındaki istatistikleri kullanarak yeni yıldaki moda eğilimlerinden ev fiyatlarındaki dalgalanmalara kadar pek çok hususta tahminler yürüten çok sayıda şirket ortaya çıkmaktadır.
İnternetin olumsuz etkilerinden bahsedilirken sıkça tekrarlanan husus özel hayatın gizliliğinin sıkça ihlal edildiğidir. Soğuk Savaş dönemindeki komünist blokta yer alan ülkelerin kendi vatandaşlarını izlemek için devasa büyüklükte casusluk şebekeleri kurduğu bilinmektedir. Doğu Almanya'da faaliyet gösteren Stasi (Staatssicherheit, State Security) kurduğu ve yüzbinlerle ifade edilen çalışanı ile neredeyse tüm Doğu Alman vatandaşlarını izlemiştir. İnternetin ortaya çıkmasıyla birlikte artık bu tür izleme faaliyetleri hem kolaylaşmış hem de son derece kapsamlı hala gelmiştir.. Ayrıca önceden sadece istihbarat örgütleri tarafından gerçekleştirilen bu tür faaliyetler hayatımızın vazgeçilmez bir parçası haline gelen İnternet siteleri tarafından kullanıcının kendi isteğiyle verdiği bilgiler vasıtasıyla çok daha kapsamlı olarak uygulanmaktadır. Facebook bizim sosyal ilişkilerimiz dâhil nelerden hoşlandığımızı, Google arama alışkanlıklarımızı, Twitter aklımızdan geçirdiklerimizi, e-ticaret siteleri de alışveriş alışkanlıklarımızı bilmektedir. Mobil işletmeciler kiminle ne konuştuğumuzu ve hatta tatillerimiz ve boş vakitlerimizi kiminle geçirdiğimizi ve hangi arkadaşımıza ne kadar yakın olduğumuzu bilmektedir. Yalnızca şirketler değil devletlerinde vatandaşlarının İnternet üzerinden gerçekleştirdikleri işlemleri izleme kapasitesi önemli oranda artmıştır. Amerikan Güvenlik Ajansı (NSA, National Security Agency) tarafından yapılan bu izlemelerle ilgili pek çok skandal ortaya çıkmıştır.[4]
Büyük veri platformunun oluşumunda beş ana bileşen vardır. Bunlar; variety, velocity, volume, verification ve value 'dir. Genel olarak 5v diye açıklandığı için İngilizce karşılıklarına yer verilebilinir.
İnternetin çok defa fazla kişi tarafından kullanılır olması, günlük yaşamda aldığımız hizmetlerin, İnternet üzerine taşınan uygulama yazılımları yoluyla kolayca erişilebilir olması nedeniyle oluşan yaygın kullanım, özellikle hizmet sektöründe satış sonrası müşteri memnuniyeti sağlama ereğine yönelik olarak, son kullanıcıların her türlü bilgisinin firmalarca alınıp saklanması sonucunu doğurdu. Saklanacak ayrıntılı bilgilerin, üzerinde tutulacağı sayısal ortamlarda başgösteren "yer darlığı" yeni arayışlar için başlangıç oldu. Son birkaç yılda öne çıkan yeni yapıyı özetlersek: İşletmeler; müşterilerini daha iyi tanıyıp, onlara "bireyselleştirilmiş - kişiye özel" hizmetleri sunabilmek için onlarla ilgili çok sayıda bireysel bilgiyi saklamak durumunda kalmaktadır.
Ek olarak; Uydu/Harita Dizgeleri (GPS), Akıllı Gezgin Telefonlar (GSM), çok yüksek çözünürlüklü fotoğraflar çekebilen yeni nesil kameralarla üretilen, ses ve görüntü bilgileri; saklama ortamlarının sınırlarını zorlayıp, verimliliklerini düşürüyor. Her türlü gezgin aygıtlar üzerinde çalışabilen, İnternet tabanlı yazılım ve uygulamalarca üretilenlerle birlikte, Facebook, Twitter gibi toplumsal medya ortamlarında kullanıcılarca üretilen bilgilerin saklanması gereği, bilişim konusu ile ilgili girişimcileri de, Büyük Veri alanına itti. Saydığımız, bu hemen usumuza geliveren örnekler ve benzerlerince üretilen; işlenmesi, saklanması ve irdelenmesi önceki nesil veritabanlarından ayrımlı yöntemler gerektiren büyük ölçekli verilere, kısaca Büyük Veri'ye odaklanıyoruz artık.
"İçinde bulunduğumuz Büyük Veri çağında yatırımcılar, teknoloji girişimcileri, medya ve danışmanlık şirketleri Büyük Veri konusuna odaklanarak, yeni fırsatlar yakalıyor. Bulut Barındırma çözümlerinin basitleşip ucuzlayarak genele yayılması, veri işleme konusundaki ekonomik dengeleri temelden değiştirdi. Yakın geleceğin en önemli teknoloji piyasasının Büyük Veri üzerinde oluşması, önümüzdeki beş yıl içinde de bu pazarın elli milyar doları aşması bekleniyor. Dünya çapında yıllık veri hacmindeki büyüme %59 ve büyümenin artarak devam etmesi bekleniyor. Bu büyümenin merkezinde hem geleneksel hem de yeni veri kaynakları yatıyor. IDC dijital kayıtların bu sene sonunda 1.2M Zetabytes (1021bytes)’a ulaşacağını, önümüzdeki on sene içinde de 44 katına çıkacağını tahmin ediyor. Bir önceki paragrafta bahsettiğimiz büyümenin asıl kaynağı yapısal olmayan verilerden geliyor. Yapısal olmayan verilerin yaklaşık %80′nin değersiz olduğuna dair mit ise gerek arama motorlarının gerekse de e-ticaret yapan kurumların tıklama verisini takip ederek ulaştıkları başarı sonrasında çürütülmüş görünüyor. Asıl gereksinim ise yapısal ve yapısal olmayan verinin saklanması, beraberce analiz edilerek, veri madenciliği işlemlerine tabi tutulması.
1980 lerde ürünün çok daha önemli olduğu zamanlarda, şirketlerin asıl amacı belirli bir ürünü üretmek ve müşteriye ulaşımını sağlamaktı.Bu yıllarda ERP sistemlerinin ön planda olduğunu görüyoruz. ERP(Enterprise Resource Planning) sistemlerinin geliştirilmesindeki asıl amaçlardan bazıları; müşteri, dağıtım merkezi, tedarikçiler ve üretimi bir platformda toplamaktı. Bir zamanlar çok popüler olan bu sistemde doygunluğa ulaşıldığında insanlar şu soruyu sormaya başladılar “benim için doğru müşteri kimdir?”
CRM sistemlerinin doğuşu da bu soruyla başladı denilebilir, CRM (Customer Relationship Management-Müşteri ilişkileri Yönetimi)'in asıl ilgilendiği nokta “Doğru ürün ya da hizmeti, doğru müşteriye, doğru fiyatla, doğru kanalda, doğru yerde ve zamanda sunmaktır.“ Yani artık ürüne göre müşteri değil, müşteriye göre ürün devri başlamıştır. Son 10 yıldır yükselen değer olan bu metodoloji giderek önemini artırmaktadır.
Veri miktarı oluşumundaki hızlı artışın temel nedeni ise sosyal ağ etkileşimlerinin büyüyen hacmi, lokasyon duyarlı cihazların artması ve fiziksel dünya hakkında bilgi yakalayan ve ileten "akıllı sensörler"in sayısındaki artış olarak özetlenebilir. Tabii ki bunlara video ve medya kaynakları da eklenebilir.
Son birkaç yılda mobil teknoloji ve sosyal medyadaki gelişmeler ile birlikte gerçek zamanlı datanın önemi artmış, datanın hacminin yanında çeşitliliği ve data artış hızı da bu gelişmelerden etkilenmiştir. Akıllı telefonların kullanım oranındaki artış, İnternete 7/24 erişim olanağı sağlamasının yanı sıra Whatsapp gibi online mesajlaşma uygulamaları ile Facebook, Twitter ve Instagram gibi sosyal medya uygulamaları, anlık mesaj, fotoğraf ve video paylaşımlarını artırmış, GPS teknolojisi sayesinde ise lokasyon bazlı data üretimini mümkün kılmıştır. DOMO’nun her yıl yayımladığı Data Never Sleeps raporunun 2014 versiyonunda açıklanan rakamlara göre dakikada 277.000 tweet atılırken, Instagram’da 216.000 yeni fotoğraf yükleniyor ve Youtube’a 72 saatlik video kullanıcılar tarafından upload ediliyor. Data üretimindeki artışın boyutlarını daha net olarak anlamak için aynı raporun 2011 rakamları incelenirse, dakikada yaklaşık 100.000 tweete karşılık Instagram’da sadece 3600 fotoğraf yüklendiği ve Youtube’a yaklaşık 48 saatlik video upload edildiği görülebilir.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.