SQL Server 2012’de Data Quality Services başlangıç – DQS’ye Giriş
Data Quality Service, SQL Server’ın çok önemli bir konseptidir.
Bu makale yeni başlayanlar için Data Quality Service’e giriş niteliğindedir. Bir Excel dosyası kullanacağız
Bu yazıda, Bilgi Tabanı oluşturma hakkında bilgi edinebileceğimizi ve verilerin kalitesini belirlememize yardımcı olmanın yanı sıra verilerin kötü kalitesini düzeltmemize yardımcı olabileceğimizi göreceğiz.
İşte bu eğitimde öğreneceğimiz iki önemli adım.
- Yeni Bir Bilgi Tabanı Oluşturma
- Yeni Bir Veri Kalitesi Projesi Oluşturma
Hadi Bilgi Tabanına başlayalım. Yeni New Knowledge Base’e tıklayın.
Projemizde Excel’i bir bilgi tabanı olarak kullanacağız. İşte kullanacağımız Excel. İki sütun var. Biri Colors, diğeri Shade. Bağımsız sütunlardır ve birbirleriyle ilişkili değildirler. Göstermeye çalıştığım nokta, Sütun A’da benzersiz veriler var ve Sütun B’de yinelenen kayıtlar var.
New Knowledge Base üzerine tıkladığınızda aşağıdaki ekran açılacaktır. Yeni bilgi tabanı adını girin.
İLERİ’yi tıkladığınızda, EXCEL dosyasını seçmesine izin verecek olan aşağıdaki ekran görüntülenir ve kullanıcıların kaynak sütununu seçmelerine de izin verir. Colors ve Shade’i bir kaynak sütun olarak seçtim.
Bir etki alanı oluşturmak çok önemlidir. Burada, Colors ve Shade’den kompozit oluşturulan benzersiz bir alan veya alan adı oluşturabilirsiniz.
Bu ilk örnek olduğundan, benzersiz alan oluşturacağım – Colors için Alan Colors oluşturacağım ve Shade için Alan Shade oluşturacağım.
Etki alanı oluşturduktan sonra ekranın nasıl görüneceğini gösteren ekran.
İLERİ’yi tıkladığınızda size veri bulma işlemini gerçekleştirebileceğiniz aşağıdaki ekrana geleceksiniz. START düğmesini tıklatmak, sağlanan kaynak verilerin işlenmesine başlayacaktır.
Önceden işlenmiş veriler, kaynak verileri ile ilgili çeşitli bilgileri gösterecektir. Bizim durumumuzda Colors sütununun benzersiz veri olduğunu, Shade’in benzersiz olmayan verilere sahip olduğunu ve benzersiz veri satırlarının sadece ikisinin olduğunu göstermektedir.
Bir sonraki ekranda, değerler benzersiz olarak listelendiği için aslında daha fazla satır ekleyebilir ve verilerin sıklığını görebilirsiniz.
İleriye tıklandığında, yeni oluşturulan bilgi tabanı yayınlanacak.
Şimdi bilgi tabanı oluşturuldu. Herhangi bir rasgele veri almaya ve üzerinde DQS uygulaması yapmaya çalışacağız. Basitlik amacıyla başka bir excel sayfası kullanıyorum. Gerçekte aynı SQL Server tablosunu kolayca kullanabilirsiniz.
DQS Projesini başlatmak için New Data Quality Project ‘e tıklayın.
Bir sonraki ekranda hangi bilgi tabanını kullanacağını soracaktır. Yakın zamanda oluşturduğumuz Color Bilgi tabanımızı kullanacağız.
Renk bilgisi tabanımızda iki sütun vardı – 1) Colors ve 2) Shade. Bizim durumumuzda, burada her iki eşlemeyi de kullanacağız. Kullanıcı burada bir veya daha fazla sütun haritalama seçebilir.
Şimdi komple projenin en önemli aşaması. Başlat’a tıklayın ve temizleme işlemini yapar ve çeşitli sonuçlar gösterir.
Bizim durumumuzda işlenecek iki sütun vardı ve görevi gerekli bilgiyle tamamladı. Colors sütunlarında kendiliğinden herhangi bir değeri düzeltmediğini ancak Shade değerinde bir öneri olduğunu ortaya koymuştur. Değerleri düzeltmek için DQS’yi eğitebiliriz.
Şimdi tıklayın ve etki alanı renkleri sol taraftan seçili tutun. Düzeltilmesi gereken iki hatalı sütun olduğunu gösterecektir. Gelecekte bir kez düzeltilen değerin otomatik olarak düzeltileceği yer burası.
Burada elle değeri düzelttim ve Onayla düğmelerini tıkladım. Onay düğmelerini tıkladığımda satırlar bu sekmede kaybolacak ve Düzeltilmiş Sekme’ye geçecektir. Sekmeyi reddetmiş olsaydım satırları Geçersiz Sekme’ye taşırdı.
Bu ekranda, düzeltilen 2 satırın nasıl gösterildiğini görebilirsiniz. Düzelt sekmesine tıklayabilir ve DQS sürecinden geçen daha önce onaylanmış 6 satırı görebilirsiniz.
Şimdi ekranın sol tarafındaki Shade alanını tıklayın. DQS sistemi, doğru cevabı Dark olarak% 77’lik güven seviyesiyle tahmin ettiğinden, bu alan çok ilginç ayrıntılar gösterir. Oldukça yüksek bir güven seviyesi ve manuel gözlem de Dark’ın doğru cevabı gösterdiğini gösteriyor. Onayla’ya tıkladım ve satır düzeltilmiş sekmeye taşındı.
Bir sonraki ekranda DQS tüm faaliyetlerin özetini gösterir. Ayrıca, verilerin kalitesinin nasıl düzeltildiğini de gösterir. Kullanıcı verileri bir SQL Server Tablosu, CSV dosyası veya Excel ile keşfedebilir.
Kullanıcı ayrıca verileri ve tüm ilişkili temizleme bilgilerini veya verileri keşfetme seçeneğine de sahiptir. Verileri yalnızca gösterme amaçlı olarak seçeceğim.
Explore’ı tıklamak dosyaları oluşturacaktır.
Üretilen dosyayı açalım. Aşağıdaki gibi görünecek ve oldukça eksiksiz ve düzeltilmiş görünüyor.
DQS Süreci başarıyla tamamladık.
Yorum ( 1 )
[…] Yukarıdaki şekilde Data Quality Services ile,ilgili kolonların önceden tanımlanmış kurala göre geçerli olup olmadığının kontrolü sağlanır.Sipariş siteminde adres bilgisi “Çiçek Sokak Bakırköy” olan müşterinin satış sisteminde olası bir yazım hatasını,programda düzelmesini istediğimiz şekilde kaydederiz.Örneğin “Çiçk Sokak” gibi.Master Data Services ile o müşteri hakkında eksiksiz bir bilgi sağlanır.Data Quality ile detaylı bilgi için bu linki kullanabilirsiniz. […]