Etiket Bulutu

Benchmark Convert_IMplicit Database High Availability Database Mirroring datawarehouse dimension table dmv Dynamic Data Masking Execution Execution Plans fact table Failover Cluster Node ekleme Failover Clustering FileStream generate script High Availability Implicit Instant File Initialization index Kinect Linux Live Query Statistics Log Shipping Mirroring object explorer object explorer details ODBC Driver pass performance performance tuning Plan Handle Planü Power View reporting services rol Row Level Security script sql serer 2016 sql server SQL Server 2008 SQL Server 2008 Log Shipping SQL Server 2012 SQL Server 2012 installation SQL Server 2012 Kurulumu SQL Server Backup SQL Server da Backup planı SQL Server da Maintenance Plans oluşturma SQL Server database mirroring SQL Server Disaster Recovery sql server dynamic management views SQL Server Failover Cluster SQL Server High Availability SQL Server Log Shipping SQL Server Maintenace Plans sql server performans SQLDIAG SQLDIAG Troubleshooting T24 Temenos truncate table t-sql unique index performance 1. Dünya savaşı istatistikleri 1456 451 ACID advanced analytics Advanced Data Analytics Affinity algı Alter index Alter table ALTER TABLE .. ALTER COLUMN Altın Oran Always On ALWAYSON AlwaysOnDemoTool amazon web services kinesis AMR analiz analysis service Ankara Antivirus apache kafka Arduino Article Assembly asymmetric audit Authentication Auto Growth Availability Group azure Azure Backup azure event hub partition azure event hubs azure event hubs servisi azure event hubs veri edinme Azure File Share Azure Fiyatlandırma Azure HDInsight Azure Hizmet Modelleri Azure ML Azure New Portal Azure Pricing Azure Queue azure sql database configuration azure sql database kullanımı azure sql database stream veriyi tutma azure sql database table partitioning Azure Storage azure stream analytics azure stream analytics dashboard azure stream analytics ölçeklendirilmesi azure stream analytics servisi Azure Table BA Backup backup encyrption backupset Bakım BASE bellek Best Practice BI Semantic Model Big Data Big User blocking blocking disable trigger blocking enable trigger Buffer Cache buffer pool Buffer Pool Extension bulk logged Buluta Veri Depolama Buluttaki Disk Business Analytics Conference business intelligence Büyük Veri Case Central Management Server certificate changed data capture Cloud Computing Cloud DR CLR Cluster clustered columnstore index Clustered Index Code Snippets Cold Purging collation column store column-level columnstore ColumnStore Indexes Compress ComputerNamePhysicalNetBIOS Concurrency Conditions Contained Database Contained Databases convert CONVERT_IMPLICIT Corruption Credentials cube DAC Dashboard Tasarımı data cleansing Data Compression Data Consistency Model data encryption data matching data mining Data Page data profiling data quality Data Services Data Warehouse Design Database database list Database Management Sistem database master key Database Mirroring Database Snapshot database trigger database-level Data-Ink Ratio datasets datasource DataZen date date dimension db_owner DBA DBCC dbcc dropcleanbuffers dbcc freeproccache DBMS dbo user DDL deadlock debugging DecryptByKey DecryptByPassPhrase deleted bitmap delta store Denali Denali SSAS deny database list deşifre detail index developer DIFFERENTIAL BACKUP DirectQuery Dirty Read Disaster Recovery Distribution Yapılandırma Distributor Distributor Agent dm_server_services DMF DMO DMV document db dosya bazlı şifreleme dqs dr Dynamic Management Function Dynamic Management Object Dynamic Management View ecrypt Effected Report Design Techniques Eğitim EncryptByKey EncryptByPassPhrase encryption endpoint Environment Variable error Error 5030 Error Log Estetik Raporlama Estimated Rows Eş Zamanlılkk Etkili Rapor Tasarlama Teknikleri Etkinlik ETL event Event Viewer except;intersect;sql execution Execution Plan export formats extended events Extended Stored Procedure Facets Failover Failover Cluster fast n execution plan FETCH NEXT FILELISTONLY FILLFACTOR File Table file-level FileStream Filter Pack Filtered Index First_Value Flat File fn_repl_hash_binary Focal Point foreignkey FORMAT Forwarded Record forwarded_record_count ftp task FULL BACKUP Full Recovery Full-Text Search functions Gartner Geocluster Gerçek Zamanlı Dashboard gestalt Golden Ratio görsel duyu group by Güvenlik ha Hadoop hafıza Hash HASHBYTES HEADERONLY headers footers Heap Hekaton hicri High Availability hijr Hiyerarşi Hybrid Cloud IaaS Index Index Scan In-Memory InMemory DW In-Memory DW InMemory OLTP In-Memory OLTP Internet of People Internet of Things IO IOT IoT nedir Isolation Level indeks index inmemory in-memory oltp internet of things isolation level istatistik istatistikler İş zekası İzolasyon Seviyesi Job json json support knowledge base kolon-satır bazlı kurulum küp Lag Lansman latch Lead linked server lock locking locking hints Log Backup Log Reader Agent Log Shipping login Lost-Update LQS Machine Learning Maintenance Management Studio matrix Max Text Replication Size mdx memory Memory Optimization Advisor Memory Optimized Table Memory Optimized Tables merge Merge Agent merge kullanımı Merge Publication Merge Replication merge type 1 slowly changing dimension merge type 1 slowly changing dimension örneği merge type 1 vs type 2 scd merge type 2 slowly changing dimension merge type 2 slowly changing dimension örneği merge type 3 slowly changing dimension merge type 4 slowly changing dimension message Microsoft Advanced Data Analytics Çözümleri microsoft azure Microsoft Bulut Microsoft Sanal Akademi Microsoft SQL Server Microsoft SQL Server 2014 Yenilikleri Microsoft SQL Server 2016 Mirror mirroring missing index Monitoring move Msdb multi_user multiversion concurrency control MVP MVP Roadshow MySnippet Named Pipes Natively Store Procedures Natively Stored Procedures Nesnelerin İnterneti Network Binding Order NoEngine Approaches nonclustered columnstore index Non-Repetable Read NoSQL NoSQL Approaches NoSQL Dünyası object explorer Odak Noktası ODBC Office 365 Offline OFFSET olap OLAP Backup OLE DB OLTP Online Index order attributes Otomatik Büyüme OVER PaaS PAD_INDEX page out page properties PAGE RESTORE PAGEIOLATCH paging parameters partition partitioning PASS PASS Summit PASS Summit 2014 Performance Performance Tuning performans performans tuning Phantom Read pivot Policies Policy Based Management Filtreleme Policy Management Power BI Power BI Dashboard Power BI Rest API power bi power view PowerBI PowerBI for Office 365 powerbi PowerMap PowerPivot PowerQuery powershell powershell ile sql yönetimi PowerView PowerView raporlarının web sayfalarına gömülmesi precon Primary Key primarykey Project Deployment Model Project Variable Protokol Proxy Proxy Account Publisher Purging on Independent Tables QL Server 2014 Yenilikleri Que Reader Agent Query Plan query store R Range Raporlama Raporlama Projeleri için Strateji Belirleme Raporlama Projelerine Hazırlık Read Committed Read Uncommitted RealTime Dashboard Rebuild RECONFIGURE RECONFIGURE WITH OVERRIDE Recovery model Relational Engine relationships Rename SSRS Database Repeatable Read Replication Replication Monitoring replikasyon report manager web site report parts reporting service reporting services reporting servis Resource Governor RESTORE Restore Database Restore Generate Restore Generate Script Restore transaction log rollback rs Rule of Thirds sa user SaaS sayfalama scd 3 demo scd karşılaştırma scd type 4 demo Scheduling Schema Comparison script Security segment elimination select into Self-Service BI Semantic Search Serializable Server Core SERVERPROPERTY Service services shared data sources shared datasets Shared Memory sharepoint Sharepoint 2010 ShowPlan Shrink simple recovery sing_user sliding window Slowly Changing Dimension snapshot Snapshot Agent Snapshot Publication Snapshot Replication Snippet snowflake sorting sp_configure sp_describe_first_result_set sp_server_diagnostics sp_spaceused sql SQL Agent Job SQL Azure sql bilgi yarışması SQL CLR SQL DIAG SQL DIAG Performans verisi toplama SQL endpoint SQL Login SQL Onculeri SQL Öncüleri sql script sql server SQL Server 2005 SQL Server 2008 SQL Server 2011 CTP3 SQL Server 2011 Denali SQL Server 2012 SQL Server 2012 CTP3 SQL Server 2012 RC SQL Server 2012 RC0 SQL Server 2012 ShowPlan Enhancements SQL Server 2012 T-SQL Enhancements SQL Server 2014 Sql Server 2014 Cardinality Estimator SQL Server 2014 Yenilikleri sql server 2016 SQL Server 2016 New Features SQL Server 2016 Yenilikleri sql server agent sql server assembly ekleme SQL Server Authentication sql server cast ve convert sql server clr integration sql server clr kullanımı sql server clr örnek sql server cluster SQL Server Code Name Denali SQL Server da Kullanıcı Yaratma SQL Server Database Project sql server dmv ve dmf sql server execution plan temizleme SQL Server Express Backup sql server fast n option örneği sql server fast n seçeneği SQL Server login sql server management stdio sql server merge into örnek sql server merge komutu sql server merge performnas sql server merge type 1 scd sql server merge type 2 scd sql server merge type 3 scd SQL Server Mobile Report Publisher SQL Server Network Interface SQL Server Onculeri SQL Server Öncüleri SQL Server Öncüleri Ankara SQL Server Performance sql server performans SQL Server Profiler SQL server recovery model SQL Server Reporting Services SQL Server Restore Generate Script SQL Server sa SQL Server Security SQL Server SQL DIAG sql server tarih dönüşüm işlemi sql server tarihsel veriler ile çalışma SQL Server User SQL Server yetki SQL Server yetkilendirme sql servera .net kodu ekleme SQL Serverda yetkilendirme nasıl SQL Serverda yetkilendirme nasıl yapılır sql to oracle linked server sql türkiye SQL User With Password sql yarışma SQLCMD sql'den oracle'a linked server SQLDIAG SQLDIAG Report SQLOS sqlsaturay SQLSaturday SQLSaturday #182 SQLSaturday #359 sqlsaturday #451 sqlserveronculeri ssas SSAS 2012 SSIS SSIS 2012 ssis SSMS SSMS Project SSMS Solution ssrs Stanby Database star schema STOPAT STOPBEFOREMARK STORAGE Storage Engine stored procedure stream analytics job subreports Subscriber Subscription subscriptions symmetric SYS sys.dm_db_index_physical_stats sys.dm_db_index_usage_stats sys.dm_db_missing_index_columns sys.dm_db_missing_index_details sys.dm_db_missing_index_group_stats sys.dm_db_missing_index_groups sys.server_principals sysadmin System Databases System View şifre şifreleme table table difference TableHasClustIndex TableHasIdentity TableHasPrimaryKey Tablet PC Tabular Mode Tabular Model TCP/IP TDE Tempdb time series Transaction Transactional Publication Transactional Replication Transparent Data Encryption trigger Troubleshooting TRY_CONVERT TRY_PARSE tsql t-sql T-SQL 2012 tsql mistakes Undocument union unionall Updatable ColumnStore İndex upgrade Veri ambarı veri edinme seçenekleri Veri Güvenliği Veri Hizmetleri Veri madenciliği Veri Mürekkep Oranı Veri Tabanı Yönetim Sistemleri Veri Tipi Veri Tutarlılık Modelleri Veri Yönetimi Evrimi verinin evrimi Veritabanı oluşturmak VERİTABANI YEDEKLEME STRATEJİLERİ veritabanı yedeklerinin şifrelenmesi Veritabanı Yöneticisi Veritabanı Yönetimi VeritPaq view any database Visual Studio VTYS web services Webcast Windows 7 Windows 8 Windows Authentication Windows Azure Windows Failover Clustering wmi WRITELOG xevents xp_sqlagent_enum_jobs YEDEKLEME STRATEJİLERİ Yedekli Çalışma Yetkilendirme Yiğit Aktan ysfkhvc yusuf kahveci Yüksek Erişilebilirlik Yüksek Süreklilik zip

Azure HDInsight ile Büyük Veri Çözümleri 1

Ekleyen: Koray Kocabaş YemekSepeti Senior BI Developer Tarih:16.11.2015 Okunma Sayısı:1800


Herkesin bir fikrinin olduğu ama tam olarak nedir dendiğinde bir uzlaşıya varılamadığı bir kavram Big Data. Öyle ki Linkedin üzerinde 2014 senesinde yapılan araştırmada en çok trend olan konu yine big data ile ilgili veri analizleri veya alt yapılarla ilgili kısımlar. Rapor ile ilgili detayları bu adreste bulabilirsiniz. (http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-2014/) Harvard Business Review’ı incelerseniz sürekli bu konudan bahsediyor. Öte yandan ülkemize bakacak olursak bu konuda olumlu şeyler söylemek isterdim fakat son yıllarda sürekli “Big Data” seminerleri düzenleniyor ve hala neyin ne olduğu belli değil. Big Data çok güzel bir şey şeklinde başlayan cümleler artık sıkmaya başladı açıkçası.

Peki nedir bu Big Data. Aslına bakarsanız bu yazıda da tam bir oturmuş tanımlama olmayacak. Eskiden konu ile alakalı olanlar hatırlayacaktır Data Mining terimi bu şekilde trend olmuş durumdaydı. Herkesin dilinde. Excel üzerinden (hayır Data Mining Add-in’inden bahsetmiyorum) Data Mining yapanlar olduğunu düşünenler vardı. Evet gerçek hayatımda karşıma çıkmış bir durum bu. Elindeki bir kaç bin satırdan oluşan verileri Excel üzerinde Pivot tablo oluşturarak biraz daha anlamlı kılınmasına Data Mining yapıyorum diyenler karşımıza çıktı ve çıkmaya devam edecek. İşte terminoloji ve title türetmeyi seven bir grup olarak şu anki üzerine oynayacağımız ana tabir Big Data.
Hangi seminere gitseniz kiminle konuşsanız farklı bir yanıt alacağınız kavram olan Big Data’yı aslında iki farklı gözden incelemek gerekir diye düşünüyorum. Birincisi henüz bu olayın yeni yeni öneminin anlaşıldığı kısım olan Pazarlama ve İşletme ağırlıklı gruba bakacak olursak Big Data yüksek hacimli veriler yardımıyla kısmen derin analizlerin yapıldığı ve bu analizler sonucunda karşılaşmış olduğumuz problemlere karşı çözüm üretebildiğimiz yapılardır. Bu grup için tek önemli olan nokta yüksek hacimli verinin işlenmiş ve sonucunda da bir problemi çözmüş veya stratejinin önemli bir parçası olmuş olmasıdır. Arka planda kullanılan teknolojinin çok bir ehemmiyeti yoktur. 
 
İşletme ve Pazarlama gözlüğünü çıkartıp yerine IT profesyonellerinin gözlüğünün taktığımızda ise belli altyapıları kullanarak (Hadoop Ekosistemi) geçmişte gerçekleştirmenin imkansız olduğu veya katlanılamayacak derecede yüksek maliyetlere sahip olan çözümlerin çok daha rahat şekilde hayata döndürülmesidir. Bu gruptaki kulanıcılar bir üst gruptakilere göre daha keskin koşulları vardır ki esasen bu da kullanılan teknolojilerin belli olması durumudur. Ama bu grup da kendi arasında bir anlaşmazlığa düşmektedir. Öyle ki kimi kesimler Hadoop Alt yapısı kullanmasına gerek yok, Big Data Appliance (Exadata, Teradata, PDW) ürünleri kullanması da o işin Big Data olduğunu gösterir diyenler de mevcut.
 
 
Peki bizler niye böyle bir dönüşüme ihtiyaç duyduk? Hayır hayır buraya herkesin bildiği çok klişe olmuş 60 saniyede sosyal medyada olan olayları sıralamayacağım. Fakat sosyal medya platformlarının her birisinin karşılaştıkları sorunların teknoloji üreticiler ile çözülememesi ve kendi geliştirmiş oldukları sistemlerin Big Data ekosistemine katkısı yadsınamaz. Bu cümlem şaşırtıcı gelmesin çünkü ekosistemde yer alan servisleri incelediğiniz zaman arka planlarında ilk üreticilerin Facebook, Twitter, Linkedin olduğunu göreceksiniz. Önce sorunu ele almak lazım. İlk sorun eski dönemlerde yukarıda yer alan görselde de olduğu gibi IT kaynaklarının maliyetlerinin çok yüksek olması durumuydu. Bu sebeple kısıtlı kaynakları doğru kullanmamız ve boşa harcamamamız gerekiyordu. Bundan 10 sene önce geliştirilen yazılımların malesef yüksek bir çoğunluğunda yazılımın hata kodları (log dosyaları) saklanmıyordu. Eğer saklanıyorsa da belli periyotlar saklanıp sonrası farklı platformlara taşınıyordu. Bunu gerçek hayatta da deneyimlemiş olabilirsiniz. Bazı ihtiyaçlarınız doğrultusunda gittiğiniz şirketlerden talep ettiğiniz dökümler dahi belirli bir dönemi kapsıyordu. Çünkü veri tutmanın maliyetleri oldukça yüksekti. Bu durum günümüzde pek kalmadı ve sürekli şekilde düşüş gösteriyor. Özellikle Bulut Bilişim sistemlerinde ihtiyaca göre ölçeklenebilir yapı doğru kurgulandığı zaman maliyet kalemlerimizi oldukça alt boyutlara çekebilmemizi sağlıyor.
 
Bir diğer konu bir şirket için eskiden belirli periyotlarda ve belli bir iki ana sistemden gelen verinin artık onlarca, yüzlerce farklı platformdan ve sürekli şekilde gelmesi durumu. Örneğin siz bir perakende şirketiyseniz işinize yarayan, analizlerinizde kullanacağınız müşteri verileriniz sadece sizde değildir. Bu tüm şirketler için böyle. Yaptığınız pazarlama faaliyetlerinin başarı oranından tutun, stok yönetiminize, kritik envanter planlanlarından insan kaynakları yönetiminize kadar şirketinizde olmayan ve şirketinizi ilgilendiren milyonlarca veri var. Ve sizin yapmış olduğunuz anlaşmalar neticesinde partnerlarınızdan alarak kendi sistemlerinizdeki verilerle entegre etmeli ve bunun sonucunda da anlamlı yapılar ortaya sunmalısınız. Burada esas konu sürekli akan veriyi işleme problemi. Evet gigabyte ve hatta yaptığınız yatırımlarla terabyte seviyesindeki verileri işleme konusunda RDBMS dediğimiz ve halen çok büyük oranda pazarı domine eden ürünler işimizi kurtarıyordu. Fakat kimi problemler için bu yapılar çözüm olmamaya başladılar. Diyelim ki bir uçak firmasında çalışıyorsunuz. Hatta bu firma Boeing olsun. Son günlerde gerçekleştirdikleri 38 Milyar dolarlık satış işlemiyle bu sıralar gündemde. Boeing uçaklarındaki sensörlerden saat başında yaklaşık 20 Terabyte veri üretimi gerçekleşiyor. Bu rakam şirketlerin çok büyük bir çoğunluğunun bu zamana kadar üretmiş oldukları veri miktarından çok çok daha fazla. (kullanıcıların download ettikleri filmleri saymazsak) veya özellikle benim izlemekten keyif aldığım ve saniyelerin kazanmanıza veya kaybetmenize neden olduğu Formula 1 yarışlarını ele alalım. İnsanların çalışma yaptığı işlemlerde bile saniyeler kritik. Pitstop’lar 1.923 saniyeye kadar düşebiliyor (Red Bull, Austin, 2013) Bu yarışlarda araç başına ortalama 2000 sensör ile 200 GB civarında bir veri üretimi gerçekleşiyor. Peki bunlar nasıl analiz edilecek. İşte biraz önce bahsettiğimiz RDBMS sistemleri bu konuda ya yetersiz kalıyor ya da gerçekleştirilmesi çok yüksek maliyetlere sebep oluyor. Bu sebeple başta sosyal medya platformları olmak üzere bir çok mühendis bu büyük soruna cevap arayan çözümler geliştiriyor ve adına Big Data deniliyor. Her sektörde her alanda onlarca örnek hayatımız ta içinde. Mesela yakın bir tarihte iflasın eşiğine gelen Borussia Dortmund’un veya son dönemlerde oldukça başarı kaydeden Hoffenheim takımının başarı sebeplerini bir araştırın derim.
 
Kendi vucutlarımızı ele alalım. Çektirmiş olduğunuz bir MR ortalama 150 MB ediyor. Fakat gelişen teknolojiyle birlikte her bir MR’ın 1 GB tan fazla veri sağlayacağı belirtiliyor. Mamografi ise 120 MB civarında. Hal böyle olunca hastanelerde ortalama yıllık 600 TB civarında veri üretileceği varsayılıyor. Ülkemizdeki yapı ise elbette bu durumda değil. Malesef aklınıza gelebilecek en büyük hastanelerde bile her giriş yaptığımda telefon, kimlik vs. Bilgilerim hala isteniyor. Bir türlü veri anlamlandırılıp işe yarar hale getirilememiş. Yığın şeklinde duruyor.
 
Yine bir başka sorun klasik kullandığımız yapılarda veri türlerinin belli olmasıydı. Ne demek bu derseniz aslında mevcut veri tabanı sistemlerinin çok büyük bir çoğunluğu verileri tablo mantığında tutar ve bu tablolarda bulunan sütunların da veri tipleri bellidir. Ama günlük hayatımıza baktığımızda üretilen verilerin çok çok büyük bir kısmı bu şekilde değil de yapısal olmayan dediğimiz türde yer almaktadır. Burada kastettiğim oran yaklaşık %80 civarında. Örneğin klasik bir veri tabanı ile Breaking Bad dizisinin baş karakteri olan Jesse’nin dizi boyunca kaç kere Yo! Veya bitch kelimesini kullandığını tespit etmeniz oldukça güç. 
 
Sözü daha fazla uzatmayalım. Üç ana başlık altında ihtiyaçların sıralandığı kısmı aslında yukarıda güncel örneklerle açıklamaya çalıştım. Bunlar Velocity (Hız), Variety (Çeşitlilik) ve Volume (Hacim) olarak karşımıza çıkıyor. Ve bu sorunlara karşılık olarak sunulan çözüm HDFS dosyalama yapısının üstünde yer alan Hadoop ismindeki platform ve onu temel alarak çalışan ürünlerdir. Bu konuda giriş yazısı olduğu için daha fazla detay vermeyeceğim. Fakat açık konuşmak gerekirse eskiden ve hali hazırda kullandığımız yapılardan çok daha farklı mantığa sahipler. Bu sebeple ucu bucu olmayan bir dünya ve Big Data’yı tanımlayanları iki gruba ayırmıştık ya işte o ilk grubun gördüğü kadar basit bir dünya değil. Aksine kendi görüşümü söyleyecek olursam her bir servisin kurulumunu, ne işe yaradığını, ne zaman kullanılması gerektiğini öğrenmek ve bunu çok yüksek boyutta yazılım dilleri ile yapmak açıkçası çok zorluyor. Fakat bu bile bir problem ve bunu problem olarak gören kişiler çözüm üretmişler. Bu çözümler ise Hortonworks, Cloudera, Amazon EMR, Azure HDInsight gibi çözümlerle size bu yapıların hazır kurulu olarak gelmesi ve sizlerin bu kurulu yapılar üzerine çalışmanıza olanak sağlanması. Giriş niteliğindeki bu yazımızdan sonra aslında daha teknik konulara değineceğiz ve Azure HDInsight servisi üzerinde  servis tanımlamalarını yaparak örnekler geliştirmeye başlayacağız.
 
Veri’nin ışığında dünyamızın nasıl değiştiğini işletme gözünden daha fazla görmek isteyenler için TED’in yayınlamış olduğu seminerleri şiddetle tavsiye ederim. Öte yandan yeni olan her konuda olduğu gibi bu konuda da türkçe kaynak bulmak oldukça zor. Eğer ki ben biraz daha teknik kısma girmek istiyorum derseniz Hakan İlter’in öncülük ettiği Devveri.com bu konuda bulunmaz nimet.
 

yorum yaz

Üye Girişi

Kullanıcı Adınız

Şifreniz

Şifremi Unuttum

Arkadaşına Tavsiye Et

Tavsiye edebilmek için siteye giriş yapmalısınız