diff --git a/provas/PDF/A22022_solucoes.pdf b/provas/PDF/A22022_solucoes.pdf new file mode 100644 index 0000000..c952053 Binary files /dev/null and b/provas/PDF/A22022_solucoes.pdf differ diff --git a/provas/src/A2_2022_sol1.tex b/provas/src/A2_2022_sol1.tex new file mode 100644 index 0000000..567c14c --- /dev/null +++ b/provas/src/A2_2022_sol1.tex @@ -0,0 +1,28 @@ +\textcolor{red}{\textbf{Conceitos trabalhados}: função poder; tamanho.} +\textcolor{purple}{\textbf{Nível de dificuldade}: fácil.}\\ +\textcolor{blue}{ +\textbf{Resolução:} +Para responder a), vamos lembrar que a função poder $\pi(\theta \mid \delta_c) = P_\theta\left(\textrm{Rejeitar}\: H_0\right)$. +Sendo assim, temos +\begin{align*} + \pi(\theta \mid \delta_c) &= P_\theta\left(S \geq c\right),\\ + &= 1 - P_\theta(S < c),\\ + &= 1 - F_S\left(c; n, \theta \right), +\end{align*} +onde $F_S\left(x; a, b\right)$ é a f.d.a. de uma distribuição Gama com forma $a$ e taxa $b$ avaliada em $x \in \mathbb{R}$. +Agora precisamos mostrar que $\pi(\theta \mid \delta_c)$ é não descrescente em $\theta$ de modo a responder b). +Usando a dica, sabemos que +\begin{equation*} + \pi(\theta \mid \delta_c) = 1 - e^{-c/\theta}\sum_{j = k}^\infty \frac{1}{j!}\left(\frac{c}{\theta}\right)^j, +\end{equation*} +de modo que $\frac{\partial}{\partial \theta}\pi(\theta \mid \delta_c) \geq 0$. +Outro bom argumento é esboçar o gráfico da função poder e mostrar que ela não pode decrescer. +O tamanho de $\delta_c$ é dado por +\begin{equation*} + \alpha_0 := \sup_{\theta \in \Theta_0} \pi(\theta \mid \delta_c). +\end{equation*} +Como a função poder é não descrescente, temos que $\alpha_0 = \pi(\theta_0 \mid \delta_c)$, respondendo c). +Em d), temos que o teste de fato é não-viesado, pois a função poder é não descrescente em $\theta$, de modo que para todo par $\theta \in \Theta \setminus \Theta_0$ e $\theta^\prime \in \Theta_0$ temos que $\pi(\theta^\prime \mid \theta) \leq \pi(\theta \mid \theta)$. +$\blacksquare$\\ +\textbf{Comentário:} Esta é uma questão parecida com a Q1 da A2 de 2020, mas neste caso Ivo mede os tempos entre as quedas dos poemas. Uma questão simples e conceitual para esquentar os músculos. +} \ No newline at end of file diff --git a/provas/src/A2_2022_sol2.tex b/provas/src/A2_2022_sol2.tex new file mode 100644 index 0000000..30288cf --- /dev/null +++ b/provas/src/A2_2022_sol2.tex @@ -0,0 +1,65 @@ +\textcolor{red}{\textbf{Conceitos trabalhados}: quantidade pivotal; intervalo de confiança; equivalência entre ICs e testes.} +\textcolor{purple}{\textbf{Nível de dificuldade}: fácil.}\\ +\textcolor{blue}{ +\textbf{Resolução:} +Existem várias respostas possíveis para a), algumas mais úteis (para os itens subsequentes) que outras. +Por exemplo, +\begin{equation*} + W_n := \bar{X}_n - \theta +\end{equation*} +é pivotal, com distribuição Normal com média $0$ e variância $\sigma^2/n$. +Uma escolha um pouco mais sábia é +\begin{equation*} + Z_n := \sqrt{n}\frac{\left(\bar{X}_n - \theta\right)}{\sigma}, +\end{equation*} +que tem distribuição normal-padrão. +Para responder b), temos, mais uma vez, algumas opções: podemos construir intervalos unilaterais ou bilaterais. +A partir de $Z_n$, podemos construir um intervalo de confiança conseguimos construir intervalos usando a normal-padrão. +Para um intervalo unilateral, podemos escolher $c_U = \Phi^{-1}(0.05)$ e fazer +\begin{equation*} + I_1(\bX_n) = \left(-\infty, \bar{X}_n + |c_U|\frac{\sigma}{\sqrt{n}}\right), +\end{equation*} +ou +\begin{equation*} + I_2(\bX_n) = \left(\bar{X}_n - |c_U|\frac{\sigma}{\sqrt{n}}, \infty\right). +\end{equation*} +Para construir um intervalo bilateral, fazemos $c_B = \Phi^{-1}(0.025)$ e então +\begin{equation*} + I_3(\bX_n) = \left(\bar{X}_n - |c_B|\frac{\sigma}{\sqrt{n}}, \bar{X}_n + |c_B|\frac{\sigma}{\sqrt{n}}\right), +\end{equation*} +é um intervalo com a cobertura desejada. +A resposta de c) é sim: podemos, por exemplo, usar $I_2(\bX_n)$ e desenhar um teste da forma +\begin{equation*} + \delta_2 = + \begin{cases} + \textrm{Rejeitar}\: H_0, \: \textrm{se}\: \theta_0 \in I_2(\bX_n),\\ + \textrm{Falhar em rejeitar}\: H_0 \: \textrm{caso contrário}. + \end{cases} +\end{equation*} +Este teste tem tamanho $\alpha$ e é não-viesado. +Se não soubéssemos o valor de $\sigma^2$, poderíamos construir a quantidade pivotal +\begin{equation*} + Q_n = \sqrt{n}\frac{\bar{X}_n - \theta_0}{\sqrt{\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}}}, +\end{equation*} +que tem distribuição t de Student com $n-1$ graus de liberdade. +Isso nos leva a um novo intervalo da forma +\begin{equation*} + I_4(\bX_n) = \left(\bar{X}_n - |t_U|\frac{\sqrt{\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}}}{\sqrt{n}}, \infty\right), +\end{equation*} +onde $t_U$ é o quantil $\alpha$ de uma t de Student com $n-1$ graus liberdade. +Com $I_4$ em mãos, desenhamos um teste como anteriormente: +\begin{equation*} + \delta_4 = + \begin{cases} + \textrm{Rejeitar}\: H_0, \: \textrm{se}\: \theta_0 \in I_4(\bX_n),\\ + \textrm{Falhar em rejeitar}\: H_0 \: \textrm{caso contrário}. + \end{cases} +\end{equation*} +A resposta de e) tem a ver com aceitar $H_0$ quando ela é falsa, isto é, quando $\theta > \theta_0$. +Este é um erro do tipo II e acontece com probabilidade $1-\pi(\theta \mid \delta_4) = 0.975$. +No mesmo ímpeto, poderiámos responder f) dizendo que é possível construir testes onde o erro do tipo II fica controlado. +A consequência é, em geral, que a taxa de erro do tipo I (falsos positivos) tende a aumentar. +$\blacksquare$\\ +\textbf{Comentário:} Esta questão é bem conceitual e procura testar os conhecimentos sobre testes no caso normal. +Havia várias maneiras de responder corretamente às questões. +} \ No newline at end of file diff --git a/provas/src/A2_2022_sol3.tex b/provas/src/A2_2022_sol3.tex new file mode 100644 index 0000000..9cd8971 --- /dev/null +++ b/provas/src/A2_2022_sol3.tex @@ -0,0 +1,45 @@ +\textcolor{red}{\textbf{Conceitos trabalhados}: Regressão linear; desenho experimental; quantidades derivadas.}\\ \textcolor{purple}{\textbf{Nível de dificuldade}: médio.}\\ +\textcolor{blue}{ +\textbf{Resolução:} +Para resolver a) vamos perceber que quando substituímos a covariável original $X$ por $X^\prime = X-\bar{x}$ temos $\bar{x}^\prime = 0$ e portanto $\operatorname{Cov}\left(\hat{\beta_0}, \hat{\beta_1} \right) = -\frac{\bar{x}^\prime \sigma^2}{s_x^2} = 0$. +Para afirmarmos que $\hat{\beta_0}$ e $\hat{\beta_1}$ são independentes é preciso lembrar que estes estimadores têm distribuição conjunta Normal bivariada; quando a covariância é zero, sabemos que são independentes. +A resposta de b) pode ser deduzida ao lembrar que no caso centrado, a variância de $\hat{\beta_0}$ é $\sigma^2/n$. +Desta forma, precisamos apenas encontrar $n$ tal que $\sigma^2/n < v$, isto é $n > \sigma^2/v$. +Como sabemos que os estimadores dos coeficientes são não-viesados, podemos encontrar $\hat{\theta} = a\hat{\beta_0} + b\hat{\beta_1} +c$ como nosso estimador não-viesado de $\theta$. +O EQM de tal estimador é a sua variância: +\begin{align*} + E[(\hat{\theta}-\theta)^2] &= \vr(\hat{\theta}) = a^2 \vr(\hat{\beta_0}) + b^2\vr(\hat{\beta_1}) -ab \operatorname{Cov}(\hat{\beta_0}, \hat{\beta_1}),\\ + &= a^2 \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{s_x^2} \right) + b^2\frac{\sigma^2}{s_x^2} + ab \frac{\bar{x}\sigma^2}{s_x^2},\\ + &= \sigma^2 \left(\frac{a^2}{n} + \frac{a^2\bar{x}^2}{s_x^2} + \frac{b^2}{s_x^2} + \frac{ab\bar{x}}{s_x^2}\right). +\end{align*} +Por fim, vamos responder d). +Note que a expressão necessária aqui é a do intervalo de predição: +\begin{equation*} + \hat{Y} \pm c(n, \alpha_0)\cdot\hat{\sigma}_r^\prime \cdot \sqrt{\left[ 1+ \frac{1}{n} + \frac{\left(x_{\text{pred}}-\bar{x}\right)^2}{s_x^2} \right]}, +\end{equation*} +onde +\begin{equation*} + c(n, \alpha_0) := T^{-1}\left(1-\frac{\alpha_0}{2}; n-2\right), +\end{equation*} +e +\begin{equation*} + \hat{\sigma}_r^\prime := \sqrt{\frac{\sum_{i=1}^n \left(Y_i - \hat{\beta_0} - \hat{\beta_1}x_i \right)^2}{n-2}}. +\end{equation*} +Quando $x_{\text{pred}} = \bar{x}$ a expressão se reduz um pouco e podemos deduzir que a largura do intervalo é +\begin{equation*} + \hat{l} = 2 \cdot c(n, \alpha_0) \cdot \hat{\sigma}_r^\prime \sqrt{\left[ 1+ \frac{1}{n}\right]}. +\end{equation*} +Desejamos, portanto, encontrar $n$ tal que +\begin{align*} + \pr\left(\hat{l} < l\right) &\geq \gamma,\\ + \pr\left( \hat{\sigma}_r^\prime < \frac{l}{2 \cdot c(n, \alpha_0) \cdot \sqrt{\left[ 1+ \frac{1}{n}\right]} }\right) &\geq \gamma,\\ +\end{align*} +isto é conseguimos reduzir nossa afirmação probabilística a uma afirmação com respeito à f.d.a. (ou CDF) de $\hat{\sigma}_r^\prime$. +Para completar nossos cálculos só precisamos nos lembrar que $n \hat{\sigma}_r^\prime/\sigma^2$ tem distribuição qui-quadrado com $n-2$ graus de liberdade (De Groot, Teorema 11.3.2) e, portanto, +\begin{equation*} + \pr\left(\hat{\sigma}_r^\prime \leq a \right) = F_\chi\left(\frac{\sigma^2}{n}a; n- 2\right). +\end{equation*} +$\blacksquare$\\ +\textbf{Comentário:} Nesta questão, retirada \textit{ipsis litteris} da A2 2021, trabalhamos os efeitos de centrar a variável independente na distribuição dos estimadores dos coefficientes. +Além disso, trabalhamos ideias de desenho experimental, determinando o tamanho amostral necessário para que a banda de predição na média da variável independente tenha uma certa largura com alta probabilidade. +} \ No newline at end of file diff --git a/provas/src/P2_2022_BSc_solucoes.tex b/provas/src/P2_2022_BSc_solucoes.tex new file mode 100644 index 0000000..dbd83f8 --- /dev/null +++ b/provas/src/P2_2022_BSc_solucoes.tex @@ -0,0 +1,156 @@ +\documentclass[a4paper,10pt, notitlepage]{report} +\usepackage[utf8]{inputenc} +\usepackage{natbib} +\usepackage{amssymb} +\usepackage{amsmath} +\usepackage{enumitem} +\usepackage{xcolor} +\usepackage{url} +\usepackage{cancel} +\usepackage{mathtools} +\usepackage[portuguese]{babel} +\usepackage{newclude} + +%%%%%%%%%%%%%%%%%%%% Notation stuff +\newcommand{\pr}{\operatorname{Pr}} %% probability +\newcommand{\vr}{\operatorname{Var}} %% variance +\newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample +\newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample +\newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised +\newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) +\newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) +\newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) +\newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) +\newcommand{\emv}{\hat{\theta}} +\DeclarePairedDelimiter\ceil{\lceil}{\rceil} +\DeclarePairedDelimiter\floor{\lfloor}{\rfloor} +\DeclareMathOperator*{\argmax}{arg\,max} +\DeclareMathOperator*{\argmin}{arg\,min} +%%%% +\newif\ifanswers +\answerstrue % comment out to hide answers + +% Title Page +\title{Segunda avaliação (A2)} +\author{Disciplina: Inferência Estatística \\ Instrutor: Luiz Max Carvalho \\ Monitores: Jairon Nóia \& Tiago Silva} +\date{26 de Novembro de 2022} + +\begin{document} +\maketitle + +\begin{center} +\fbox{\fbox{\parbox{1.0\textwidth}{\textsf{ + \begin{itemize} + \item O tempo para realização da prova é de 3 horas; + \item Leia a prova toda com calma antes de começar a responder; + \item Responda todas as questões sucintamente; + \item Marque a resposta final claramente com um quadrado, círculo ou figura geométrica de sua preferência; + \item A prova vale 80 pontos. A pontuação restante é contada como bônus; + \item Apenas tente resolver a questão bônus quando tiver resolvido todo o resto; + \item Você tem direito a trazer \textbf{\underline{uma} folha de ``cola''} tamanho A4 frente e verso, que deverá ser entregue junto com as respostas da prova. + \end{itemize}} +}}} +\end{center} + +\newpage + +\section*{1. O estatístico e o poeta.} + + \begin{center}\textit{ + Eu te vejo sumir por aí\\ + Te avisei que a cidade era um vão\\ + Dá tua mão, olha pra mim\\ + Não faz assim, não vai lá, não\\ + Os letreiros a te colorir\\ + Embaraçam a minha visão\\ + Eu te vi suspirar de aflição\\ + E sair da sessão frouxa de rir\\ + Já te vejo brincando gostando de ser\\ + Tua sombra a se multiplicar\\ + Nos teus olhos também posso ver\\ + As vitrines te vendo passar\\ + Na galeria, cada clarão\\ + É como um dia depois de outro dia\\ + Abrindo um salão\\ + Passas em exposição\\ + Passas sem ver teu vigia\\ + Catando a poesia\\ + Que entornas no chão\\ + } + \end{center} + \textit{As Vitrines (Almanaque, 1981)} de Chico Buarque (1944-).\\ + +O eu-lírico da canção, que vamos chamar aqui de Ivo, pensa em seu amado, Adão. +Adão é poeta, e tem a estranha mania de deixar cair seus poemas ao passear pelo shopping. +Ivo, muito solícito e perdidamente apaixonado, corre atrás do companheiro catando os papéis que +o desastrado deixa cair. +Sendo estatístico, Ivo sabe que pode modelar o tempo entre a queda dos poemas como uma variável aleatória exponencial com taxa $\theta$. +Ivo quer saber se será capaz de acompanhar Adão na sua jornada sem perder nenhum poema. +Para isso, julga que se $\theta \leq \theta_0$, ele será capaz de catar toda a poesia deixada por Adão antes de ser carregada pelo vento. + +Suponha que Ivo observa o processo de queda de $n$ poemas e anota o tempo entre cada queda, formando a amostra $Y_1, Y_2, \ldots, Y_n$. +Ivo considera a estatística de teste $S = \sum_{i=1}^n Y_i$ e constrói o teste $\delta_c$ de modo que, se $S \geq c$, ele rejeita a hipótese $H_0: \theta \leq \theta_0$. + +\begin{enumerate}[label=\alph*)] + \item (10 pontos) Encontre a função poder do teste de Ivo. + \item (10 pontos) Mostre que a função poder do item anterior é~\textbf{não-decrescente} em $\theta$; + + \textbf{Dica:} Se $X$ tem distribuição Gama com parâmetros $k \in \mathbb{N}$ e $\theta$, então + \begin{equation*} + P_\theta \left(X \leq x \right) = e^{-x/\theta}\sum_{j = k}^\infty \frac{1}{j!}\left(\frac{x}{\theta}\right)^j. + \end{equation*} + \item (10 pontos) Encontre uma expressão para o tamanho $\alpha_0$ do teste $\delta_c$; + \item (10 pontos) O teste em questão é não-viesado? Justifique; +\end{enumerate} +\ifanswers +\include*{A2_2022_sol1} +\fi + +\section*{2. PO-KÉ-MON!} + +Suponha que a Liga Internacional de Pokemon (LIP) tenha um sistema de \textit{pokescores} que podem assumir qualquer valor real. +Quanto maior o \textit{pokescore} de uma jogadora, mais alto no ranking mundial ela está. +A liga se organiza em times de $n$ jogadores. + +Para entrar na liga, um time precisa ter um \textit{pokescore} médio superior a $\theta_0$, isto é, a média dos pokescores de seus jogadores precisa ser maior que $\theta_0$. +Suponha que os \textit{pokescores} dentro de um time são distribuídos de acordo com uma distribuição Normal com média $\theta$ e variância $\sigma^2$, conhecida. +Queremos desenvolver um método para incluir times num torneio automaticamente, baseado nos \textit{pokescores} dos seus integrantes. + +\begin{enumerate}[label=\alph*)] + \item (5 pontos) Encontre uma quantidade pivotal para $\theta$; + \item (5 pontos) Utilizando a quantidade do item anterior, construa um intervalo de confiança de $95\%$ para $\theta$; + \item (10 pontos) A partir do intervalo encontrado, é possível testar $H_0: \theta \leq \theta_0$? Como? + \item (10 pontos) Se $\sigma^2$ fosse desconhecida, como você modificaria o teste do item anterior? + \item (5 pontos) Se aplicarmos os testes em (c) e (d) para selecionar times automaticamente, seremos injustos com alguns times, isto é, vamos deixar de incluir times que de fato se encaixam na condição de seleção. + Com que probabilidade isso acontece? + \item (5 pontos) Se quisermos diminuir a probabilidade do item anterior, o que podemos fazer? Que consequências isso tem? +\end{enumerate} +\ifanswers +\include*{A2_2022_sol2} +\fi + +\section*{3. Run, Joey, run!\footnote{Linear regression is a war horse of Statistics. The horse in `War Horse' (2011) is named Joey.}} + +O modelo linear (de regressão) é um dos cavalos de batalha da Estatística, sendo aplicado em problemas de Finanças, Medicina e Engenharia. +Vamos agora estudar como utilizar as propriedades deste modelo para desenhar experimentos com garantias matemáticas de desempenho e obter estimadores de quantidades de interesse. + +\begin{enumerate}[label=\alph*)] + \item (10 pontos) Uma prática comum em regressão é a de \textbf{centrar} a variável independente (covariável), isto é subtrair a média; isto facilita a interpretação do intercepto e também simplifica alguns cálculos importantes. + Mostre que no caso com a covariável centrada, $\hat{\beta_0}$ e $\hat{\beta_1}$ são independentes; + \item (10 pontos) Mais uma vez considerando o caso centrado, mostre + como obter o número de observações $n$ que faz com que a variância do estimador de máxima verossimilhança do intercepto seja menor que $v > 0$; + \item (10 pontos) Mostre como obter um estimador não-viesado da quantidade $\theta = a\beta_0 + b\beta_1 + c$, com $a, b, c \neq 0$, e encontre o seu erro quadrático médio. + \item (10 pontos) Quando $x_{\text{pred}} = \bar{x}$, mostre como obter o número de observações $n$ necessário para que o intervalo de predição de $100(1-\alpha_0)\%$ para a variável-resposta ($Y$) tenha largura menor ou igual a $l>0$ com probabilidade pelo menos $\gamma$. + + \textit{Dicas}:(i) A expressão dependerá~\textit{também} da variância dos resíduos, $\sigma^2$ e (ii) Você não precisa calcular $n$, apenas mostrar o procedimento para obtê-lo. + \end{enumerate} + + +\ifanswers +\include*{A2_2022_sol3} +\fi + +% \bibliographystyle{apalike} +% \bibliography{refs} + +\end{document}