cienciadedados-ufcg · hugogbs · May 7, 2018
diff --git a/reports/eda-sense8.Rmd b/reports/eda-sense8.Rmd
@@ -1,18 +1,19 @@
 ---
 title: "EDA Sense8"
 output:
-  html_notebook:
-    toc: yes
-    toc_float: yes
   html_document:
     df_print: paged
     toc: yes
     toc_float: yes
+  html_notebook:
+    toc: yes
+    toc_float: yes
 ---
 
 ```{r setup, echo=FALSE, warning=FALSE, message=FALSE}
 library(tidyverse)
 library(here)
+library(knitr)
 theme_set(theme_bw())
 ```
 
@@ -53,9 +54,10 @@ Outro dado que eu também achei interessante verificar foi a média de votos par
 
 ```{r}
 votes_means = episodes %>% 
-                 group_by(series_name) %>%
-                 summarise(mean = mean(user_votes)) %>%
-                 glimpse
+                 group_by(Série = series_name) %>%
+                 summarise(Média = round(mean(user_votes),2)) 
+votes_means %>%
+    kable()
 ```
 
 ##Qual das séries que você escolheu é mais bem avaliada no IMDB? A diferença é grande? Pequena? Muda de acordo com as temporadas da série? 
@@ -64,9 +66,10 @@ A média geral da avaliação dos usuários de 'Xena a Princesa Guerreira' é ma
 
 ```{r}
 means = episodes %>% 
-                 group_by(series_name) %>%
-                 summarise(mean(user_rating)) %>%
-                 glimpse
+                 group_by(Série = series_name) %>%
+                 summarise(Média = round(mean(user_rating),2))
+
+means %>% kable()
 ```
 
 
@@ -78,16 +81,34 @@ season_means = episodes %>%
 
 ```{r}
 season_means %>% 
-    ggplot(aes(x = season, y = mean)) +
-    labs (x = "Temporadas", y = "Média das avaliações") +
-    geom_point() + facet_wrap(~ series_name)
+    ggplot(aes(x = season, y = mean, group = series_name, color = series_name)) +
+    geom_point() + 
+    geom_line() +
+    labs (x = "Temporadas", y = "Média das avaliações", color = "Série")
 ```
 
 ##Qual das séries que você escolheu tem episódios de qualidade mais irregular segundo o IMDB? A diferença é grande? Pequena?
 
 O que podemos observar é que, 'Thundercats'apresentou inicialmente uma maior irregularidade nas avaliações das suas primeiras temporadas, podemos observar que o gráfico apresenta vários picos, tanto negativos como positivos com o decorrer dos episódios, chegando a ter uma diferença de mais de 2 pontos de um episódio para outro dentro de uma mesma temporada, porém essas diferenças foram diminuindo mais próximo do fim da série apresentando uma diferença de pouco mais de meio ponto. Ja em 'Xena' ocorre o contrário, nas 3 primeiras temporadas a diferença é menor entre a qualidade dos episódio e quando observamos as avaliações da 4ª temporada em diante os dados começam a apresentar uma variação mais acentuada, chegando a ter mais de 2 pontos de diferença em episódios em uma única temporada.
 
+>> Os dois plots abaixo são apenas sugestões de visualização, por isso, não inclui interpretação para eles no texto
+
 ```{r}
+episodes %>%
+    ggplot(aes(x = season, y = user_rating, color = season)) +
+    geom_boxplot() +
+    geom_jitter(alpha = 0.3) +
+    facet_wrap(~series_name, scales = "free_x") +
+    theme(legend.position="none") +
+    labs(x = "Temporada", y = "Avaliações dos usuários")
+
+episodes %>%
+    ggplot(aes(x = series_name, y = user_rating, color = series_name)) +
+    geom_boxplot() +
+    geom_jitter(alpha = 0.3) +
+    theme(legend.position="none") +
+    labs(x = "Série", y = "Avaliações dos usuários")
+
 episodes %>% 
     ggplot(aes(x = series_ep, y = user_rating, color = season)) +
     labs(x = "Episódios", y = "Avaliações dos usuários") +

diff --git a/reports/eda-sense8.html b/reports/eda-sense8.html