"BÜYÜK VERİ" ÇAĞI


Bugün, dünya nüfusunun yarısı internet hizmetlerini kullanmaktadır. Bu yoğun etkileşim oranının bir sonucu olarak da bir çok farklı kaynaktan büyük hacimde ve çok hızlı bir şekilde veri üretimi gerçekleşmektedir. Son 30 yılda, dünyadaki genel veri depolama kapasitesi her 14 ayda bir ikiye katlanarak artış gösterme eğiliminde olmuştur. Bu denli büyük hacimde, hızda ve çeşitlilikte veri akışına maruz kalan kurumlar da bundan elde edilecek değerin daha fazla farkında olmaya başlayarak veriyi artık bir gayrımenkul, makine-teçhizat, taşıt, vs. gibi “maddi varlık” statüsünde değerlendirmeye başlamışlardır. Böylece, teknoloji tarihinde veri yönetimi biliminde eşine daha önce hiç rastlanmamış yeni bir çağ doğmuş, bu çağ da “Büyük Veri” (Big Data) çağı olarak adlandırılmıştır.

Bilim dallarında, iş dünyasında, insanlar arası elektronik iletişimde üretilen verinin kaynakları her geçen gün artan bir çeşitlilik göstermektedir: e-mail iletişimi, radyo frekansları, mobil iletişim, sosyal medya, sağlık sektöründeki cihaz okuma kayıtları ve diğer tetkikler, iş dünyasındaki perakende ve finans trafiği kayıtları, hava-deniz-kara ulaşımı, sensörlerden ve uydulardan toplanan operasyonel verilerin trafiği gibi. Toplanan bu verilerin çok büyük bir kısmı “ham veri”dir ve analiz edilmeden önce birtakım işlemlerden geçmesi gerekmektedir; tıpkı ham petrolün yerin altından çıktıktan sonra direkt kullanılamaması, araçlarda kullanıma hazır hale gelmesi için bazı işlemlerden geçmesi gerektiği gibi.

Ham verinin bir diğer adı da “yapılandırılmamış veri”dir. Yapılandırılmamış veri, işlemlerden geçtikten sonra “yapılandırılmış veri”ye dönüşür. Kabataslak bir tanımla: Yapılandırılmış veri, veri tabanlarında genelde tablolar halinde depolanır. Yapılandırılmamış veri ise veritabanlarında ilgili silolara çuvaldan pazar tezgahına patates boşaltır gibi daha düzensiz yığınlar şeklinde depolanır. Bu iki ayrı veri tipine birer örnek verelim. E-devlet üzerinden SSK veya Bağ-Kur ödemelerini incelemek isteyen bir kişi ilgili sayfaya geldiğinde sigorta verilerini yapılandırılmış veri şeklinde görecektir, çünkü burdaki tüm veriler tablolar halindedir. Diğer yandan aynı kişi facabook veya twitter sosyal medya hesaplarında kendi paylaşım geçmişine göz gezdirmek istese, bu veri kütlesi karşısına yapılandırılmamış veri olarak çıkacaktır. Burda veriler tablolar halinde değildir, çuvaldan boşalmışçasına, yığınlar halinde ve daha düzensizdir. Dünyadaki tüm verinin ortalama %80’i yapılandırılmamış veridir, bunun içinde de en büyük oranı text, yani metin verisi oluşturmaktadır.

Büyük Veri’yi oluşturan en temel 3 sacayağı: hacim, hız ve çeşitliliktir. Bu üç unsur içinde en baskın olanı ise hacimdir. Bugün, insanların gerçekleştirdiği eylemlerin büyük kısmı gün geçtikçe artan bir oranda veri üretimi eylemlerine dönüşmektedir. Kullanılan elektronik cihazların sayısı ve çeşitliliği artmakta, bunun bir sonucu olarak da üretilen büyük verinin hacmi artış göstermektedir. Bu denli büyük ölçeklere ulaşan verinin analizi de klasik manada tek bir masaüstü veya dizüstü bilgisayarda yapılamamakta, ancak birçok bilgisayarın bir araya gelmesiyle oluşturulan bilgisayar havuzlarında gerçekleştirilebilmektedir.

Büyük Veri’nin ikinci önemli unsuru hızdır. Verinin üretilme hızının büyük oranlarda artmasıyla beraber bu durum, verinin işlenmesi ve analiz edilmesi süreçleri üzerinde doğal olarak bir hızlanma baskısı oluşturmaktadır. Yüksek hızda üretilen verinin de veritabanlarında depolandıktan sonra uzun süreler bekletilmeden, yine yüksek hızda işlenmesi ve analiz edilerek değerli bilgi haline dönüştürülmesi gerekmektedir. Mesela bankalar arası bir dolandırıcılık tespiti analizinde bir dakikanın bile çok büyük önemi vardır, veriler çok hızlı bir şekilde analiz edilip karar vericilere ulaştırılmazsa iş işten geçmiş olacaktır. Diğer bir örnek de twitter’da bir haberin yayılma sürecidir. Twitter, dünyadaki tüm kullanıcıların yazdıklarını çok hızlı bir şekilde kendi platformuna taşıyamasaydı hiçbir haber twitter’da bu kadar kısa sürede yayılamazdı.

Büyük Veri’de üçüncü önemli unsur da verinin çeşitliliğidir. Veri kaynaklarındaki çeşitliliğin yanı sıra veri tiplerindeki çeşitlilik de zamanla artış göstermektedir: resimler, ses ve video dosyaları, metinler, klasik dökümanların taranmasıyla oluşturulan metinler, GPS verileri, internet sitelerinin tıklanma verileri, makinelerin kendi aralarında iletişim kurmasıyla (Nesnelerin İnterneti) elde edilen veriler, vs.

Büyük hacimdeki ve büyük çeşitlilikteki verileri büyük bir hızda birleştirerek analiz edip değerli bilgi haline getirmek, eldeki problemlere yönelik muhtemel çözümlerin kalitesini ve çözüm hızını önemli oranda artırıp maliyeti ise azaltacağından gerek özel kurumların gerekse devlet kurumlarının gelişimine önemli katkılarda bulunma fırsatı sunmaktadır. Bu katkılar içinde en önemlilerden biri olan “istihbarat analizinde büyük veri” konusu ise bir sonraki makalemizin içeriğini oluşturacaktır.