Skip to content

Kroki agregacji

Mateusz Żółtak edited this page Nov 23, 2018 · 5 revisions

Istnieją dwa główne kroki agregacji

Agregacja z poziomu danych jednostkowych

Na tym etapie dane agregowane są z poziomu agregacji danych jednostkowych (składka danego typu od danego pracodawcy w danym miesiącu dla absolwenta danego kierunku studiów) do poziomu wstępnie zagregowanego (w wypadku raportów ELA wartości wskaźników w danym miesiącu dla absolwenta danego kierunku studiów).

  • Realizowana funkcją agreguj_do_miesiecy().
    • Jako że funkcja agreguj_do_miesiecy() przyjmuje zmienne grupujące jako argument, istnieje możliwość dokonania wstępnej agregacji do innego poziomu
      (np. dla analiz pogłębionych w podziale na PKD dane agregowane były w tym kroku do poziomu wartości wskaźników w danym miesiącu dla absolwenta danego kierunku studiów w podziale na kody PKD pracodawców).
  • Struktura danych wejściowych i wyjściowych jest w tym kroku zasadniczo różna:
    • dane wejściowe zawierają informacje o cechach poszczególnych typów składek (np. składka wskazująca na bycie bezrobotnym, składka wskazująca na pracę na etacie, itd.),
    • dane wyjściowe zawierają wskaźniki okienkowe o definicji zgodnej z opisaną w pliku definicji wskaźników (wyliczone dla okienka czasu jeden miesiąc i przechowywane w tzw. postaci długiej).

Agregacja z poziomu miesięcy do określonego okresu (tzw. okienka czasu).

  • Realizowana połączeniem funkcji oblicz_okienko() oraz agreguj_do_okresu().
    • oblicz_okienko() ogranicza zbiór danych do rekordów pasujących do zadanego okienka czasu. Okienko czasu jest opisywane jako liczba miesięcy od wskazanej zmiennej czasowej (np. od 13 do 24 miesiąca od momentu uzyskania dyplomu)
    • agreguj_do_okresu() dokonuje agregacji zmiennych do wyższego poziomu. Domyślnie jest to poziom absolwent kierunku studiów, jednak zestaw zmiennych wyznaczających poziom agregacji jest przyjmowany jako argument funkcji, można go więc go dostosować (np. w analizach pogłębionych w podziale na PKD dane agregowano do poziomu absolwent kierunku studiów pracujący w gałęzi gospodarki o danym PKD).
  • Struktura danych wejściowych i wyjściowych jest jednakowa.
    • W obydwu wypadkach są to zmienne wyznaczające jednostkę grupowania (np. identyfikator absolwenta) oraz wskaźniki okienkowe o definicji zgodnej z opisaną w pliku definicji wskaźników.
    • Oznacza to, że drugi krok agregacji można w razie potrzeby powtarzać kilkukrotnie, np. wyliczając wskaźniki dla kwartałów, następnie agregując wskaźniki kwartalne do rocznych, itd. W chwili obecnej możliwość ta nie jest jednak wykorzystywana.