Kayıt Ol

Giriş

Şifremi Kaybettim

Lost your password? Please enter your email address. You will receive a link and will create a new password via email.

soru ekleme

Soru sormak için giriş yapmalısınız.

Giriş

Kayıt Ol

.........

Kaynak Verileri keşfetme

Kaynak Verileri keşfetme

SSIS’nin temel mimarisini anladığınıza göre, ETL çözümünüzdeki veri akışlarını planlamaya başlayabilirsiniz. Bununla birlikte, bir ETL işlemini uygulamaya başlamadan önce, çözümünüzün kullanacağı kaynaklardaki mevcut verileri araştırmanız gerekir. ETL çözümünüzün temel alınacağı kaynak verileri hakkında ayrıntılı bilgi edinerek, verileri aktarmak için en etkili SSIS veri akışlarını tasarlayabilir ve SSIS paketlerinizde çözmeniz gereken herhangi bir kalite sorununu önerebilirsiniz. Bu ders, kaynak veriyi keşfetme değerini ve bunun incelenmesi ve profillemesi için teknikler anlatılmaktadır.

Neden Kaynak Verilerini Keşfedin?

Veri ambarınızın tasarımı ve bütünlüğü sonuçta içerdiği verilere dayanır. Veri ambarını doldurmak için uygun bir ETL işlemini tasarlamadan önce, çözümünüzün tüketeceği kaynak verileri konusunda kapsamlı bir bilgiye sahip olmanız gerekir.

Özellikle şunu anlamalısınız:

  • Kaynak verilerle temsil edilen işletme varlıkları ve nitelikleri. Örneğin, bir ürün veya müşteri varlığını tam olarak tanımlayan belirli öznitelikler, kuruluş genelinde birden çok sütun, tablo veya veritabanında saklanabilir.
  • Veri değerlerini ve kodlarını nasıl yorumlayabilirim. Örneğin, Products tablosundaki Stok Durumu sütunundaki 1 değeri, şirketin stokta tek bir birime sahip olduğu anlamına mı gelir yoksa 1, yalnızca “true” değerini mi gösteriyor, yani stokta belirtilmemiş bir miktar miktarı var mı?
  • İşletme varlıkları arasındaki ilişkiler ve bu ilişkilerin veri kaynaklarında nasıl modellendiği.

İşletme varlıklarının veri modellemesinin anlaşılmasına ek olarak, tanımlamanıza yardımcı olması için kaynak verilerinizi de incelemeniz gerekir:

  • Veri akışlarına dahil edilecek belirli nitelikler için sütun veri türleri ve uzunlukları. Örneğin, dize değerleri için ne kadar uzunluk mevcut? Tarih, saat ve sayısal değerleri belirtmek için hangi biçimler kullanılır?
  • Veri hacmi ve seyreklik. Örneğin, kaç satış satırı sırası genellikle tek bir işlem gününde kaydedilir? Sıklıkla boş değerler içeren herhangi bir nitelik var mıdır?
  • Veri kalitesi sorunları. Örneğin, açık veri girişi hataları var mı? Birbirleri için eş anlamlı olan yaygın olarak kullanılan değerler var mı?

ETL çözümünü uygulamadan önce bu gibi soruların yanıtlarını bulmak, veri akış problemlerini öngörmenize ve onlara etkili çözümler önermenize yardımcı olabilir.

Kaynak Verinin İncelenmesi

Birkaç araç ve teknik kullanarak kaynak verilerini keşfedebilirsiniz. Aşağıdaki liste incelenecek verileri ayıklamak için kullanabileceğiniz bazı yaklaşımları açıklamaktadır:

  • Microsoft® SQL Server® Management Studio’daki veri kaynaklarına yönelik sorguları çalıştırma ve sonuçları panoya kopyalama.
  • Belirli bir veri kaynağı için bir veri örneği veya satır sayısı çıkaran bir veri akışı içeren bir SSIS paketi oluşturma.
  • Veri örneğini ayıklamak için the Import and Export Data Wizard’ı kullanma.

Örnek verileri çıkardıktan sonra, incelemeniz gerekir. Bunu yapmanın en etkili yollarından biri, verileri virgülle sınırlandırılmış metin gibi Microsoft Excel®’de açabileceğiniz bir biçimde çıkarmaktır. Excel’i kullanarak şunları yapabilirsiniz:

  • Verileri sütunlara göre sıralama
  • Belirli bir sütunda kullanılan değer aralığını tanımlamak için sütun filtrelerini uygulama
  • Sayısal sütunların minimum, maksimum ve ortalama değerlerini hesaplamak için formülleri kullanma.
  • Belirli dize değerleri için veriyi arama.

Hakkında Hilal Saim

Namık Kemal Üniversitesi/Bilgisayar Mühendisliği

Beni Takip Et

Leave a reply

*