Skip to content

Pobieranie wartości wskaźników

Mateusz Żółtak edited this page Sep 28, 2015 · 4 revisions

Wstęp

Poniżej zapoznamy się z:

  1. wyszukiwaniem pożądanych wskaźników w grupie danych wskaźniki
  2. pobieraniem wartości pożądanych wskaźników z grupy danych wartości wskaźnków
  3. dołączaniem do wartości wskaźników informacji o szkołach i odfiltrowywanie pobieranych danych do wybranego zakresu, np. po typie szkoły, województwie, itp. (grupa danych szkoły)

Przydatne linki:

Funkcje, z których będziemy korzystać:

  • pobierz_wskazniki()
  • pobierz_wartosci_wskaznikow()
  • pobierz_szkoly()

Czynności wstępne

Zacznijmy od załadowania pakietu ZPD i połączenia się z bazą danych: ]

# devtools::install_github('zozlak/ZPD')

# importujemy pakiet ZPD i nawiązujemy połączenie z bazą danych IBE
library(ZPD)
src = polacz() 

# do tworzenia wykresów przyda nam się biblioteka ggplot2
# więcej informacji na jego temat można znaleźć na stronie: http://www.cookbook-r.com
library(ggplot2)

Wyszukiwanie wskaźników EWD/PWE

Punktem wyjścia do pobrania wskaźników EWD/PWE dla szkół jest ustalenie, jaki dokładnie wskaźnik chcemy pobrać, występują one bowiem w wielu odmianach ze względu na rodzaj egzaminu (sprawdzian/egzamin gimnazjalny/matura), część egzaminu, typ szkoły, itp.

W tym celu przeanalizujemy zawartość zbioru danych wskaźniki

Na początek pobierzemy cały zbiór danych wskazniki.
O ile nie jest to zalecane w przypadku większości zasobów bazy, w tym wypadku jest on na tyle mały, że nie będzie to stanowić problemu.

wskazniki_all = pobierz_wskazniki(src) %>%
  collect()

Podejrzyjmy teraz pierwsze kilka wierszy pobranego zbioru:

wskazniki_all
## Source: local data frame [394 x 12]
## 
##    rodzaj_wsk    wskaznik okres wsk_do_prezentacji      skrot
##         (chr)       (chr) (int)              (lgl)      (chr)
## 1         pwe paou_sp_war     1               TRUE sprawdzian
## 2         pwe paou_sp_war     1               TRUE sprawdzian
## 3         pwe paou_sp_war     1               TRUE sprawdzian
## 4         pwe paou_sp_war     1               TRUE sprawdzian
## 5         pwe paou_sp_war     1               TRUE sprawdzian
## 6         pwe paou_sp_war     1               TRUE sprawdzian
## 7         pwe paou_sp_war     1               TRUE sprawdzian
## 8         pwe paou_sp_war     1               TRUE sprawdzian
## 9         pwe paou_sp_war     1               TRUE sprawdzian
## 10        pwe paou_sp_war     1               TRUE sprawdzian
## ..        ...         ...   ...                ...        ...
## Variables not shown: opis_wsk (chr), rok_do (int), typ_szkoly (chr),
##   rodzaj_egzaminu (chr), czesc_egzaminu (chr), id_skali (int), skalowanie
##   (int)

Jak widzimy, ma on 210 obserwacji i 12 zmiennych.
Opis poszczególnych zmiennych znajdziemy na tej stronie.
Zmienne te będą nam służyć do późniejszego filtrowania wyników znajdujących się w bazie danych.

Sprawdźmy jakie wartości przyjmują wybrane zmienne:

unique(wskazniki_all$rodzaj_wsk)
## [1] "pwe" "ewd"
unique(wskazniki_all$rodzaj_egzaminu)
## [1] "sprawdzian"          "matura"              "egzamin gimnazjalny"
unique(wskazniki_all$typ_szkoly)
## [1] "SP"    "TU"    "T"     "LP"    "LOU"   "LO"    "gimn."
unique(wskazniki_all$czesc_egzaminu)
##  [1] ""                          "j. angielski podstawowa"  
##  [3] "matematyka podstawowa"     "j. polski podstawowa"     
##  [5] "historia podstawowa"       "WOS podstawowa"           
##  [7] "biologia podstawowa"       "chemia podstawowa"        
##  [9] "fizyka podstawowa"         "geografia podstawowa"     
## [11] "informatyka podstawowa"    NA                         
## [13] "j. polski rozszerzona"     "historia rozszerzona"     
## [15] "WOS rozszerzona"           "matematyka rozszerzona"   
## [17] "biologia rozszerzona"      "chemia rozszerzona"       
## [19] "fizyka rozszerzona"        "geografia rozszerzona"    
## [21] "informatyka rozszerzona"   "humanistyczna"            
## [23] "historia i WOS"            "j. polski"                
## [25] "matematyczno-przyrodnicza" "matematyka"               
## [27] "przedmioty przyrodnicze"
unique(wskazniki_all$okres) # okres == 1 dla PWE i okres == 2 lub 3 dla EWD
## [1] 1 3

Zmienna wskaznik w zbiorze danych wskazniki to identyfikator oszacowania PWE lub EWD, którego opis znajdziemy w zmiennej opis_wsk:

unique(wskazniki_all$wskaznik)
##  [1] "paou_sp_war"    "paou_m_ang_war" "paou_m_mat_war" "mlh_tl_wgr"    
##  [5] "mlmp_tl_wgr"    "mlm_tl_wgr"     "mlp_tl_wgr"     "mth_tl_wgr"    
##  [9] "mtmp_tl_wgr"    "mtm_tl_wgr"     "mtp_tl_wgr"     "gh_2015"       
## [13] "gh_h_2015"      "gh_p_2015"      "gm_2015"        "gm_m_2015"     
## [17] "gm_p_2015"      "paou_gh_war"    "paou_gmp_war"

Korzystając z opisanych powyżej zmiennych możemy odpowiednio filtrować ramkę danych w poszukiwaniu interesującego nas wskaźnika.
W tym celu przydatne będą funkcje filter(), select() oraz arrange() omawiane na wcześniejszym warsztacie.
Dodatkowo, możemy skorzystać z funkcji distinct(), która usuwa ze zbioru danych duplikaty.

Spróbujmy zatem wyszukać wybrane wskaźniki PWE/EWD:

  1. Wskaźniki PWE dla sprawdzianu (takie jak w serwisie internetowym):
wskazniki_all %>%
  filter(
    rodzaj_wsk == "pwe",
    rodzaj_egzaminu == "sprawdzian"
  ) %>%
  arrange(rok_do, skrot) %>%
  select(rodzaj_wsk, wskaznik, okres, wsk_do_prezentacji, skrot, rok_do, typ_szkoly, rodzaj_egzaminu, czesc_egzaminu)
## Source: local data frame [12 x 9]
## 
##    rodzaj_wsk    wskaznik okres wsk_do_prezentacji      skrot rok_do
##         (chr)       (chr) (int)              (lgl)      (chr)  (int)
## 1         pwe paou_sp_war     1               TRUE sprawdzian   2002
## 2         pwe paou_sp_war     1               TRUE sprawdzian   2003
## 3         pwe paou_sp_war     1               TRUE sprawdzian   2004
## 4         pwe paou_sp_war     1               TRUE sprawdzian   2005
## 5         pwe paou_sp_war     1               TRUE sprawdzian   2006
## 6         pwe paou_sp_war     1               TRUE sprawdzian   2007
## 7         pwe paou_sp_war     1               TRUE sprawdzian   2008
## 8         pwe paou_sp_war     1               TRUE sprawdzian   2009
## 9         pwe paou_sp_war     1               TRUE sprawdzian   2010
## 10        pwe paou_sp_war     1               TRUE sprawdzian   2011
## 11        pwe paou_sp_war     1               TRUE sprawdzian   2012
## 12        pwe paou_sp_war     1               TRUE sprawdzian   2013
## Variables not shown: typ_szkoly (chr), rodzaj_egzaminu (chr),
##   czesc_egzaminu (chr)

Jak widać w tym wypadku mamy do czynienia z jednym wskaźnikiem (zmienna wskaznik) paou_sp, który występuje dla lat 2002-2013.

  1. Wskaźniki EWD dla matury z języka polskiego:
wskazniki_all %>%
  filter(
    rodzaj_wsk == "ewd",
    wsk_do_prezentacji == TRUE, 
    rodzaj_egzaminu == "matura",
    czesc_egzaminu %in% c("j. polski podstawowa", "j. polski rozszerzona")
  ) %>%
  arrange(rok_do, skrot) %>%
  select(rodzaj_wsk, wskaznik, okres, wsk_do_prezentacji, skrot, rok_do, typ_szkoly, rodzaj_egzaminu, czesc_egzaminu)
## Source: local data frame [24 x 9]
## 
##    rodzaj_wsk   wskaznik okres wsk_do_prezentacji         skrot rok_do
##         (chr)      (chr) (int)              (lgl)         (chr)  (int)
## 1         ewd mlh_tl_wgr     3               TRUE humanistyczny   2012
## 2         ewd mth_tl_wgr     3               TRUE humanistyczny   2012
## 3         ewd mlh_tl_wgr     3               TRUE humanistyczny   2012
## 4         ewd mth_tl_wgr     3               TRUE humanistyczny   2012
## 5         ewd mlp_tl_wgr     3               TRUE  język polski   2012
## 6         ewd mtp_tl_wgr     3               TRUE  język polski   2012
## 7         ewd mlp_tl_wgr     3               TRUE  język polski   2012
## 8         ewd mtp_tl_wgr     3               TRUE  język polski   2012
## 9         ewd mlh_tl_wgr     3               TRUE humanistyczny   2013
## 10        ewd mth_tl_wgr     3               TRUE humanistyczny   2013
## ..        ...        ...   ...                ...           ...    ...
## Variables not shown: typ_szkoly (chr), rodzaj_egzaminu (chr),
##   czesc_egzaminu (chr)

W tym wypadku mamy do czynienia z 4 różnymi wskaźnikami (zmienna wskaznik):

  • mlh_tl_wgr (wskaźnik humanistyczny dla LO),
  • mth_tl_wgr (wskaźnik humanistyczny dla techników),
  • mlp_tl_wgr (wskaźnik dla j. polskiego dla LO),
  • mtp_tl_wgr (wskaźnik dla j. polskiego dla T).

Przy czym każdy z nich występuje dla 3 okresów: 2010-2012, 2011-2013, 2012-2014 (patrz kombinacje zmiennych rok_do oraz okres).

Umiejąc znaleźć interesujące nas wskaźniki, możemy przejść do pobierania ich wartości.

Pobieranie wartości wskaźników EWD/PWE

Znając identyfikator wskaźnika, który chcemy pobrać (wartość zmiennej wskaznik w grupie danych wskaźniki), możemy pobrać z bazy jego wartości.

Znajdują się one w grupie danych wartości wskaźnków, a do ich pobrania służy funkcja pobierz_wartosci_wskaznikow().

Pobierzmy np. wartości wskaźnika paou_sp (PWE dla sprawdzianu):

pwe_spr = pobierz_wartosci_wskaznikow(src) %>%
  filter(wskaznik == 'paou_sp')
pwe_spr
## Source: postgres 9.4.4 [[email protected]:5432/ewd]
## From: <derived table> [?? x 31]
## Filter: wskaznik == "paou_sp" 
## 
##    id_ww rodzaj_wsk wskaznik okres_wsk rok_do id_szkoly   rok
##    (int)      (chr)    (chr)     (chr)  (int)     (int) (int)
## 1  10233        pwe  paou_sp      2002   2002     40417  2002
## 2  42055        pwe  paou_sp      2002   2002     40418  2002
## 3  42056        pwe  paou_sp      2002   2002     40419  2002
## 4  42057        pwe  paou_sp      2002   2002     40420  2002
## 5  42058        pwe  paou_sp      2002   2002     40421  2002
## 6  42059        pwe  paou_sp      2002   2002     40423  2002
## 7  42060        pwe  paou_sp      2002   2002     40424  2002
## 8  42061        pwe  paou_sp      2002   2002     40425  2002
## 9  42062        pwe  paou_sp      2002   2002     40426  2002
## 10 42063        pwe  paou_sp      2002   2002     40432  2002
## ..   ...        ...      ...       ...    ...       ...   ...
## Variables not shown: poziom_agregacji (chr), teryt_jst (int), gmina_jst
##   (chr), powiat_jst (chr), wojewodztwo_jst (chr), pomin (lgl), kategoria
##   (int), wyswietlaj (lgl), komunikat (chr), srednia (dbl), bs (dbl), q1
##   (dbl), mediana (dbl), q3 (dbl), min (dbl), max (dbl), ewd (dbl), bs_ewd
##   (dbl), trend_ewd (dbl), bs_trend_ewd (dbl), korelacja (dbl), lu (int),
##   lu_ewd (int), lu_wszyscy (int)

Zamiast podawać nazwę wskaźnika ręcznie, możemy dokonać odfiltrowania za pomocą funkcji semi_join() i odfiltrowanej wcześniej grupy danych wskaźniki:

# wyszukujemy wskaźnik PWE dla sprawdzianu
wskaznik_spr = pobierz_wskazniki(src) %>%
  filter(
    rodzaj_wsk == "pwe",
    rodzaj_egzaminu == "sprawdzian"
  ) 
wskaznik_spr %>% 
  select(wskaznik) %>% 
  distinct() # podglądamy nazwę wskaźnika
## Source: postgres 9.4.4 [[email protected]:5432/ewd]
## From: <derived table> [?? x 1]
## 
##       wskaznik
##          (chr)
## 1  paou_sp_war
## ..         ...
pwe_spr = pobierz_wartosci_wskaznikow(src) %>%
  semi_join(wskaznik_spr)
pwe_spr
## Source: postgres 9.4.4 [[email protected]:5432/ewd]
## From: <derived table> [?? x 31]
## 
##      id_ww rodzaj_wsk    wskaznik okres_wsk rok_do id_szkoly   rok
##      (int)      (chr)       (chr)     (chr)  (int)     (int) (int)
## 1  2318686        pwe paou_sp_war      2004   2004        NA  2004
## 2  2318687        pwe paou_sp_war      2004   2004        NA  2004
## 3  2318688        pwe paou_sp_war      2004   2004        NA  2004
## 4  2318689        pwe paou_sp_war      2004   2004        NA  2004
## 5  2318690        pwe paou_sp_war      2004   2004        NA  2004
## 6  2318691        pwe paou_sp_war      2004   2004        NA  2004
## 7  2318692        pwe paou_sp_war      2004   2004        NA  2004
## 8  2318693        pwe paou_sp_war      2004   2004        NA  2004
## 9  2318694        pwe paou_sp_war      2004   2004        NA  2004
## 10 2318695        pwe paou_sp_war      2004   2004        NA  2004
## ..     ...        ...         ...       ...    ...       ...   ...
## Variables not shown: poziom_agregacji (chr), teryt_jst (int), gmina_jst
##   (chr), powiat_jst (chr), wojewodztwo_jst (chr), pomin (lgl), kategoria
##   (int), wyswietlaj (lgl), komunikat (chr), srednia (dbl), bs (dbl), q1
##   (dbl), mediana (dbl), q3 (dbl), min (dbl), max (dbl), ewd (dbl), bs_ewd
##   (dbl), trend_ewd (dbl), bs_trend_ewd (dbl), korelacja (dbl), lu (int),
##   lu_ewd (int), lu_wszyscy (int)

Spróbujmy teraz zwizualizować wyniki dla województw w sposób analogiczny do tego, jak w serwisie internetowym PWE: (95% przedziały ufności własności średniej, co odpowiada +/- 1,96 * błąd standardowy)

# odfiltrowujemy dane województw
# i ograniczamy się do zmiennych: rok, województwo, srednia i bs
pwe_spr_woj = pwe_spr %>%
  filter(poziom_agregacji == "województwo") %>%
  select(rok, wojewodztwo_jst, srednia, bs) %>%
  collect()

ggplot(pwe_spr_woj, aes(x = rok, y = srednia, color = wojewodztwo_jst, fill = wojewodztwo_jst)) +
  geom_line(size=.5) +
  geom_ribbon(aes(ymin = srednia - 1.96 * bs, ymax = srednia + 1.96 * bs), alpha = 0.2, colour = NA) +
  scale_x_continuous(breaks = 2002:2013) + 
  ggtitle("PWE dla sprawdzianu na przestrzeni lat") +
  ylim(94, 104) +
  geom_hline(aes(yintercept = 100), linetype = "dashed")

plot of chunk unnamed-chunk-10

Podobnie możemy pobrać np. wskaźniki PWE dla części humanistycznej egzaminu gimnazjalnego dla powiatów z województwa pomorskiego:

# wyszukujemy wskaźnik PWE dla części humanistycznej egzaminu gimnazjalnego
wskaznik_gh = pobierz_wskazniki(src) %>%
  filter(
    rodzaj_wsk == "pwe",
    rodzaj_egzaminu == "egzamin gimnazjalny",
    czesc_egzaminu == "humanistyczna"
  )
wskaznik_gh %>% 
  select(wskaznik) %>% 
  distinct() # podglądamy nazwę wskaźnika
## Source: postgres 9.4.4 [[email protected]:5432/ewd]
## From: <derived table> [?? x 1]
## 
##       wskaznik
##          (chr)
## 1  paou_gh_war
## ..         ...
# pobieramy wartości wskaźnika odfiltrowując tylko powiaty w woj. pomorskim
# (wskaźnik odfiltrowujemy złączając z pobraną przed chwilą nazwą wskaźnika)
pwe_gh_pomorskie = pobierz_wartosci_wskaznikow(src) %>%
  semi_join(wskaznik_gh) %>%
  filter(
    wojewodztwo_jst == 'pomorskie',
    poziom_agregacji == 'powiat'
  ) %>%
  collect()
pwe_gh_pomorskie
## Source: local data frame [240 x 31]
## 
##      id_ww rodzaj_wsk    wskaznik okres_wsk rok_do id_szkoly   rok
##      (int)      (chr)       (chr)     (chr)  (int)     (int) (int)
## 1  2792387        pwe paou_gh_war      2008   2008        NA  2008
## 2  2792388        pwe paou_gh_war      2008   2008        NA  2008
## 3  2792389        pwe paou_gh_war      2008   2008        NA  2008
## 4  2792390        pwe paou_gh_war      2008   2008        NA  2008
## 5  2792391        pwe paou_gh_war      2008   2008        NA  2008
## 6  2792392        pwe paou_gh_war      2008   2008        NA  2008
## 7  2792393        pwe paou_gh_war      2008   2008        NA  2008
## 8  2792394        pwe paou_gh_war      2008   2008        NA  2008
## 9  2792395        pwe paou_gh_war      2008   2008        NA  2008
## 10 2792396        pwe paou_gh_war      2008   2008        NA  2008
## ..     ...        ...         ...       ...    ...       ...   ...
## Variables not shown: poziom_agregacji (chr), teryt_jst (int), gmina_jst
##   (chr), powiat_jst (chr), wojewodztwo_jst (chr), pomin (lgl), kategoria
##   (int), wyswietlaj (lgl), komunikat (chr), srednia (dbl), bs (dbl), q1
##   (dbl), mediana (dbl), q3 (dbl), min (dbl), max (dbl), ewd (dbl), bs_ewd
##   (dbl), trend_ewd (dbl), bs_trend_ewd (dbl), korelacja (dbl), lu (int),
##   lu_ewd (int), lu_wszyscy (int)

Teraz możemy jeszcze np. odfiltrować jedynie wyniki dla 2007 roku i posortować je od najwyższych do najniższych w województwie (na podstawie wartości średniej).

pwe_gh_pomorskie %>%
  filter(rok == 2007) %>%
  select(rok, powiat_jst, srednia, bs, lu) %>%
  arrange(desc(srednia))
## Source: local data frame [20 x 5]
## 
##      rok   powiat_jst  srednia       bs    lu
##    (int)        (chr)    (dbl)    (dbl) (int)
## 1   2007       Gdynia 101.3760 0.474054  2657
## 2   2007       Gdańsk  98.8730 0.407933  4829
## 3   2007        Sopot  96.9347 0.919182   335
## 4   2007       Słupsk  96.8313 0.555633  1235
## 5   2007     lęborski  94.4275 0.595255   990
## 6   2007   kwidzyński  94.3414 0.578143  1126
## 7   2007     tczewski  93.8304 0.514551  1583
## 8   2007      gdański  93.7128 0.534863  1285
## 9   2007  wejherowski  93.4819 0.452735  2929
## 10  2007   kościerski  93.2166 0.567042  1073
## 11  2007    chojnicki  92.4435 0.552553  1476
## 12  2007 starogardzki  92.1468 0.493333  1939
## 13  2007     kartuski  92.1382 0.496529  1831
## 14  2007  człuchowski  92.1212 0.662192   885
## 15  2007     bytowski  91.9948 0.561604  1274
## 16  2007    malborski  91.9855 0.620701   981
## 17  2007        pucki  91.1161 0.607242  1037
## 18  2007     sztumski  91.0118 0.718265   583
## 19  2007  nowodworski  90.5365 0.740074   529
## 20  2007      słupski  88.8238 0.597462  1368

Pobieranie wartości wskaźników dla szkół

Oczywiście jest również możliwe pobranie wartości wskaźników EWD/PWE dla szkół.

Ponieważ jednak grupa danych wartości wskaźnków zawiera jedynie identyfikator szkoły w bazie IBE (zmienna id_szkoly), aby móc zidentyfikować szkołę niezbędne będzie pobranie i dołączenie danych z grupy danych szkoły. Do pobrania grupy danych szkoły służy funkcja pobierz_szkoly().

Pobierzmy np. wartości wszystkich wskaźników PWE dla wszystkich gimnazjów w województwie opolskim dla roku 2010.
Zauważmy, że w tym wypadku:

  • Województwo, w którym leżą szkoły musimy odfiltrować w ramach grupy danych szkoły, bo właśnie tam znajduje się ta informacja.
  • Rok możemy odfiltrować w dowolnej grupie danych - albo tylko w grupie szkoły (jednostką obserwacji są tam dane adresowe szkoły w danym roku!) albo tylko w grupie wartościWskaźników albo w obydwu z nich.
# wyszukujemy wskaźniki PWE dla gimnazjów
wskazniki_gh = pobierz_wskazniki(src) %>%
  filter(
    rodzaj_wsk == 'pwe', 
    rodzaj_egzaminu == 'egzamin gimnazjalny',
    czesc_egzaminu == 'humanistyczna'
  )

# wyszukujemy szkoły w woj. opolskim w 2010 roku
szkoly_opolskie = pobierz_szkoly(src) %>%
  filter(
    wojewodztwo_szkoly == 'opolskie',
    rok == 2010
  )

# pobieramy wartości wskaźników odiltrowując interesujące szkoły i wskaźniki
# porzez złączenia z pobranymi wyżej danymi
pwe_gim_opolskie = pobierz_wartosci_wskaznikow(src) %>%
  semi_join(wskazniki_gh) %>%
  inner_join(szkoly_opolskie) %>%
  collect()

# podglądamy fragment pobranych danych
pwe_gim_opolskie %>%
  select(id_szkoly, typ_szkoly, wojewodztwo_szkoly, rok, srednia, bs)
## Source: local data frame [139 x 6]
## 
##    id_szkoly typ_szkoly wojewodztwo_szkoly   rok  srednia      bs
##        (int)      (chr)              (chr) (int)    (dbl)   (dbl)
## 1      17785      gimn.           opolskie  2010  97.8853 2.05156
## 2      17786      gimn.           opolskie  2010  98.5114 2.37913
## 3      17787      gimn.           opolskie  2010 101.4930 1.17616
## 4      17788      gimn.           opolskie  2010 101.8660 1.19396
## 5      17789      gimn.           opolskie  2010 101.8110 1.16306
## 6      17791      gimn.           opolskie  2010  71.6755 2.47971
## 7      17792      gimn.           opolskie  2010  98.7149 1.45185
## 8      17793      gimn.           opolskie  2010  94.3827 1.64578
## 9      17794      gimn.           opolskie  2010  93.0567 3.24011
## 10     17797      gimn.           opolskie  2010 102.3050 2.54617
## ..       ...        ...                ...   ...      ...     ...

Pytania dla dociekliwych:

  • Dlaczego pobierając szkoły nie musieliśmy wskazać typu szkoły (gimnazjum), a mimo to otrzymaliśmy poprawny wynik?
  • Co trzeba by zrobić, aby wyszukując wskaźniki nie musieć filtrować po rodzaju egzaminu?

Pobrane dane możemy przedstawić na wykresie uwzględniając dodatkowo dane o szkołach publicznych i niepublicznych:

ggplot(pwe_gim_opolskie, aes(x=srednia, fill=publiczna)) +
  geom_histogram(aes(y=..density..), binwidth=1, position="identity", fill="grey", colour="white") +
  geom_density(alpha=.3)

plot of chunk unnamed-chunk-14


Pobieranie wskaźników EWD

W poniższym przykładzie pobieramy 3-letnie wskaźniki EWD dla okresu 2010-2012 dla Techników w Krakowie, a następnie wyświetlamy pierwszych 20 wierszy pobranych danych:

# wyszukujemy 3-letnie wskaźniki EWD kończące się w 2012 roku
wskazniki_ewd = pobierz_wskazniki(src) %>%
  filter(
    rodzaj_wsk == "ewd",
    okres == 3,
    rok_do == 2012
  )

# wyszukujemy technika w Krakowie
szkoly_ewd = pobierz_szkoly(src) %>%
  filter(
    powiat_szkoly == "Kraków",
    typ_szkoly == 'T'
  )

# pobieramy wartości wskaźników odfiltrowując wyżej pobranymi danymi
ewd_t_krakow = pobierz_wartosci_wskaznikow(src) %>%
  semi_join(wskazniki_ewd) %>%
  inner_join(szkoly_ewd) %>%
  collect()

# podglądamy wybrane zmienne pierwszych 20 wierszy
ewd_t_krakow %>%
  select(wskaznik, srednia, ewd, nazwa_szkoly, publiczna) %>%
  head(20)
## Source: local data frame [20 x 5]
## 
##      wskaznik  srednia       ewd
##         (chr)    (dbl)     (dbl)
## 1  mtm_tl_wgr  90.0182 -5.544100
## 2  mtm_tl_wgr 107.2780  2.234780
## 3  mtm_tl_wgr  99.9548 -1.554560
## 4  mtm_tl_wgr 111.4780  1.379120
## 5  mtm_tl_wgr  94.8222 -3.985440
## 6  mtm_tl_wgr  98.1471 -2.248000
## 7  mtm_tl_wgr 106.6450  2.526190
## 8  mtm_tl_wgr  93.2225 -1.972320
## 9  mtm_tl_wgr  94.2552 -4.162610
## 10 mtm_tl_wgr  92.3054 -5.787940
## 11 mtm_tl_wgr 100.4390 -0.714075
## 12 mtm_tl_wgr  96.4576 -3.717300
## 13 mtm_tl_wgr 105.2260  4.289810
## 14 mtm_tl_wgr  92.8082 -5.388670
## 15 mtm_tl_wgr  91.8344 -1.194210
## 16 mtm_tl_wgr 128.8930 15.169900
## 17 mtm_tl_wgr 102.2150  0.704371
## 18 mtm_tl_wgr  94.7400 -3.905620
## 19 mtm_tl_wgr 110.5510  4.597990
## 20 mtm_tl_wgr  91.4975 -4.938350
## Variables not shown: nazwa_szkoly (chr), publiczna (lgl)