R_giris.Rnw

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% Emrah ER
%% eer@politics.ankara.edu.tr
%% "Ekonometriye Yeni Başlayanlar için Kısa bir R Kılavuzu" 
%% kitapçığına ait Sweave dosyasıdır
%% Bu dosyayı R'da çalıştırmak için: `Sweave("R_giris.Rnw")'
%% Friedrich Leisch tarafından yazılan Sweave için 
%% http://www.stat.uni-muenchen.de/~leisch/Sweave/
%% adresine bakınız.
%% Bu dosya Mahmood Arai tarafından hazırlanan 
%% "A Brief Guide to R for Beginners in Econometrics"
%% kılavuzun Türkçeleştirilmiş halidir.
%% http://people.su.se/~ma/R_intro/
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% Giriş
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\documentclass[10pt,a4wide]{article}
\usepackage[turkish]{babel}
\usepackage[latin5]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{html,graphics,color,amsmath,amsfonts,natbib}
\usepackage{Sweave,fancyvrb,color,url,hyperref}
\SweaveOpts{echo=TRUE}
\setkeys{Gin}{width=\textwidth}
\setlength{\parindent}{0pt}
\setlength{\parskip}{0.2cm}
\newcommand{\R}{\textbf{R}}
\definecolor{Red}{rgb}{0.5,0,0}
\definecolor{Blue}{rgb}{0,0,0.5}
\hypersetup{%
    breaklinks = {true},
    colorlinks = {true},
    linkcolor = {Blue},
    citecolor = {Blue},
    urlcolor = {Red}
    }
\SweaveOpts{keep.source=TRUE}

\newcommand{\ee}{\htmladdnormallink{Emrah ER}{http://eremrah.com}}
\newcommand{\ma}{\htmladdnormallink{Mahmood ARAI}{http://people.su.se/~ma}}
\newcommand{\Rhome}{\htmladdnormallink{\R\  Anasayfa}
{http://www.r-project.org/}}

\newcommand{\CRAN}{\htmladdnormallink{CRAN-mirror}
{http://cran.r-project.org/}}

\newcommand{\CRANTV}{\htmladdnormallink{CRAN Konu Görüntüleme:
Sayısal Ekonometri}
{http://ftp.sunet.se/pub/lang/CRAN/web/views/Econometrics.html}}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}

\title{Ekonometriye Yeni Başlayanlar için Kısa bir \R\ Kılavuzu}
\author{\textbf{Yazan:}\ma \\Stockholm Üniversitesi, İktisat Bölümü\\
\\
\textbf{Türkçeleştiren:} \ee\footnote{Bu çeviri benim \R\ ile ilgili olarak gerçekleştirdiğim
ilk çalışma olduğundan bazı çeviri hataları içerebilir. Hataları bana bildirirseniz sevinirim.} \\Ankara Üniversitesi, SBF İktisat Bölümü\\
{\small İlk Versiyon: 11/06/2010}}
\date{}
\maketitle

\section{Giriş}

\subsection{\R\ Hakkında}

\R\  GPL (GNU Kamu Lisansı) altında yayınlanan ve tüm ana 
platformlarda çalıştırılabilen bir programdır.
\R, \Rhome'sında şu şekilde tanımlanmaktadır: 

\begin{quotation}
\textit{"R istatistiki hesaplama ve grafik için bir özgür program ortamıdır.
Çok çeşitli Unix platformunda, Windows ve MacOS altında harmanlama yapabilmekte ve çalışmaktadır.
R'ı indirmek için lütfen tercih ettiğiniz \CRAN'ı seçiniz."}
\end{quotation}

Kılavuzlar ve farklı dökümanlar için \Rhome'sını ziyaret ediniz.
\R\ üzerine yazılmış çok sayıda kitap mevcuttur.
R ile ilişkili yayınların bir listesi için 
R-Project\footnote{ \url{http://www.R-project.org/doc/bib/R.bib}} web sayfasını
ziyaret ediniz.
\citet{Dalgaard}
ve \citet{Fox} başlangıç düzeyi için ideal kitaplardır.
İleri düzey bir kitap için ise klasik bir referans olan 
\citet{VR}'yi inceleyiniz. 
\citet{AER} özel olarak ekonometri konularını ele almaktadır. Ayrıca \CRANTV\ sayfasını inceleyiniz.
 
\R\ ve \LaTeX'i dokumak için 
Sweave'e\footnote{ \url{http://www.stat.uni-muenchen.de/~leisch/Sweave/}} bakınız. 
\R\ kullanarak yeniden türetilebilir araştırmalar için \citet{Koenker07}'ye bakınız. 
\R'a atıf yapmak için ise \citet{Rcore}'e başvurulabilir.

\subsection{Bu sayfalar hakkında}

Bu ekonometriye yeni başlayanlar için bir el kılavuzudur.
Bu kılavuz Mahmood Arai tarafından hazırlanan kılavuz kullanılarak 
oluşturulmuştur\footnote{ \url{http://people.su.se/~ma/R_intro/R_intro.pdf}}. 
\verb+#+ sembolü yorumlar için kullanılmıştır. Dolayısıyla  bir satırda \verb+ # + 
ardından gelen tüm yazılar yorumdur.
\verb+ > + işaretini takip eden yazılar ise \R-komutlarıdır. Örneğin: 

<<echo=false>>=
options(width=60)
@

<<Code chunk>>=
ornegim <- "ornek"
ornegim
@


Kod yorumlarını da içeren ve çalıştırılmayan R-kodları aşağıdaki biçimde paragraflandırılmıştır.

{\small \begin{verbatim}
     ornegim <- "ornek" # <ornegim> adlı bir nesne yaratır.
     ornegim
\end{verbatim}}


\verb+< >+ arasında yer alan karakterler dosyaların, fonksiyonların, vs. isimleridir.\\
\verb+<verim>,<nesnem>+ gibi \verb+<benimbirseyim>+ şeklindeki isimler
genel bir veriye, nesneye, vs.ye atıfta bulunmak için kullanılmaktadır.

\subsection{Nesneler ve dosyalar}

\R\  \textit{nesneler} gibi şeylere önem vermektedir. Bir veri seti, vektör, matris, 
regresyon sonucu, çizim, vs. hepsi nesnelerdir. Bir dosya içerisine bir veya daha fazla 
nesne kaydedilebilir. \R-verisi içeren bir dosya bir nesne değildir fakat bir nesneler kümesidir.

Temel olarak kullanılan tüm komutlar \textit{fonksiyonlar}dır.
birsey(nesne) şeklindeki bir komut, nesne üzerinde işlem gerçekleştirir.
Bu ise birçok parantez yazacağınız anlamına gelmektedir. Parantezlerin olup olmadığını, 
ayrıca doğru yerde olup olmadıklarını kontrol edin.

 
\section{İlk birkaç şey}
\subsection{Kurulum}

\R\  birçok farklı platform altında çalışabilmektedir ve
[\CRAN]'dan indirilebilir. \\

\subsection{\R\ ile çalışma}

Bir proje için bir klasör oluşturma ve \R'ı bu klasör altında çalıştırmak iyi bir fikirdir.
Bu, çalışmanızı kaydetmenizde ve daha sonraki oturumlarda tekrar bulmanızda kolaylık sağlar.

R'ın \textit{MS-Windows}'ta belirli bir dizinde başlamasını istiyorsanız
\verb+<start in directory>+ dizinini çalışma dizini olarak tanımlamanız gerekmektedir.
Bu işlem R-ikonu üzerinde farenin sağ tuşuna tıklanıp, \verb+<properties>+  kısmına gidilerek
değiştirilebilir. 

\textit{\R\ içerisinde çalışma dizinini görüntüleme:} 

<<Directory1>>=
getwd()
@
Çalışma dizinini var olan başka bir dizin olan \verb+</ee/r_ekon>+ ile değiştirmek için:


{\small \begin{verbatim}
     setwd("/ee/r_ekon") 
\end{verbatim}}


\subsection{\R'da isimlendirme}

Bir nesneyi \verb+<benim_nesnem>+  veya
\verb+<benim-nesnem>+  şeklinde isimlendirmeyin bunun yerine
\verb+<benim.nesnem>+ kullanın.\\
\R'da  \verb+<benim.nesnem>+ ve  \verb+<Benim.nesnem>+ isimlerinin
iki farklı isim olduğuna dikkat edin. Sayı ile başlayan adlandırmalar (\verb+<1a>+ gibi) 
\R'da kabul edilmemektedir. Bunun yerine \verb+<a1>+ kullanabilirsiniz.

Bir veri setinde değişken isimlerini nesne isimleri olarak kullanmamanız gerekir.
Eğer kullanırsanız; nesne, değişkeni benzer isimdeki başka bir nesne ile gölgelendirecektir. 
Bu durumda değişkeni çağırdığınızda nesnenin görüntülenmesi problemi ortaya çıkacaktır.

Bu sorundan kaçınmak için:


\begin{enumerate}
  \item Bir nesneye veri setinizdeki bir değişken ile aynı ismi vermeyin.
  \item Eğer bu kuralı takip edemiyorsanız, değişkenlere, değişkenleri 
    içeren veri seti ve değişken adıyla başvurun. Örneğin, \verb+<df1>+
    veri setindeki \verb+<ucret>+ değişkenine:
        {\small \begin{verbatim}
            df1$ucret.
        \end{verbatim}}
    komutu ile başvurulabilir.
\end{enumerate}

``Gölgelendirme'' problemi aynı zamanda \R\ fonksiyonları ile de ilişkilidir.
\R\ fonksiyonları ile benzer isimlere sahip nesne isimleri kullanmayın.\\
\verb+<conflicts(detail=TRUE)>+ komutu yarattığınız bir nesnenin
\R\ paketlerinde yer alan başka bir nesne ile çakışıp çakışmadığını kontrol eder ve listeler. 
Yalnızca \verb+<.GlobalEnv>+ --çalışma alanınız-- altında listelenen çakışmalara dikkat etmelisiniz
\verb+<.GlobalEnv>+ altında listelenen tüm nesneler, \R\ paketlerindeki nesneleri gölgelendirmektedir.
Nesnelerin \R\ paketlerinde kullanılması için gölgelendirmeye neden olan nesnelerin kaldırılması gerekmektedir.  
 
Aşağıdaki örnek \verb+<T>+ nesnesini yaratmakta --bundan kaçınılmalıdır çünkü
\verb+<T>+, <TRUE> anlamına gelmektedir-- ve çakışmaları kontrol edip, \verb+<T>+'yi kaldırarak
çakışma sorununu çözmektedir.

{\small \begin{verbatim}
     T <- "zaman"
     conflicts(detail=TRUE)
     rm(T)
     conflicts(detail=TRUE)
\end{verbatim}}

\verb+<c,C,D,F,I,q,t,T>+ gibi tek-harflik kelimelerin de isim olarak kullanımından da kaçınmalısınız.
Bunların hepsinin \R'da özel anlamları vardır.


\textit{Dosya uzantıları}

R-kodu içeren dosyalarınızın uzantısında \verb+<R>+ kullanmak iyidir.
\verb+<lab1.R>+ şeklindeki bir dosya R-kodlarını içeren bir metin dosyası olacaktır.

\verb+<rda>+ uzantısı çalışma görüntüleri (yani \verb+<save()>+ ile yaratılan dosyalar) için idealdir.
\verb+<lab1.rda>+ şeklindeki bir dosya R-nesnelerini içerecektir. 

Kaydedilmiş çalışma görüntüsü için varsayılan isim \verb+<.RData>+'dır.
\verb+<RData>+'yı dosya uzantısı olarak kullandığınızda bir dosyayı \verb+<.RData>+
olarak adlandırmadığınıza dikkat edin.  


\subsection{Çalışma alanı nesnelerini ve görüntülerini kaydetme}
\verb+<DataWageMacro.rda>+ dosyasını indirin\footnote{\url{http://people.su.se/~ma/R_intro/data/}}.

\verb+<lnu>+ ve  \verb+<macro>+ veri setlerini içeren \verb+<DataWageMacro.rda>+ dosyasını

{\small \begin{verbatim}
     load("DataWageMacro.rda") 
     ls()                       # nesneleri listeler
\end{verbatim}}

komutu ile okuyabilirsiniz.

Aşağıdaki komut \verb+<lnu>+ nesnesini \verb+<verim.rda>+ dosyasına kaydeder.  

{\small \begin{verbatim}
     save(lnu, file="verim.rda")
\end{verbatim}}

\R'ı tekrar aynı dizinde başlattığınızda otomatik olarak yüklenecek olan
çalışma alanının bir görüntüsünü kaydetmek için, 

{\small \begin{verbatim}
     save.image() 
\end{verbatim}}

komutunu kullanın.

Çalışma alanınızın görüntüsünü \R'dan çıkarken karşınıza gelen
\verb+<Save workspace image? [y/n/c]:>+ sorusuna \verb+<yes>+ cevabını vererek de
kaydedebilirsiniz.
  
Bu şekilde çalışma alanınızın görüntüsü \verb+<.RData>+ gizli dosyasına kaydedilecektir.

Cari çalışma alanınızın görüntüsünü kaydedebilir ve \verb+<goruntum.rda>+ adını verebilirsiniz.
{\small \begin{verbatim}
     save.image("goruntum.rda") 
\end{verbatim}}

\subsection{Genel seçenekler}

\verb+<options()>+ komutu hesaplamaların ve sonuçları görüntülemenin farklı
özelliklerini ele alan bir dizi seçeneğin düzenlenmesinde kullanılabilir.

Şimdi birkaç faydalı seçeneğe bakalım. Satır uzunluğunu 60 karaktere sınırlayarak başlıyoruz.

<<Options>>=
options(width=60)
@

{\small \begin{verbatim}
     options(prompt=" R> ")  # promptu R> olarak değiştirir.
     options(scipen=3)       # R version 1.8'den. Bu seçenek
                             # R'a sayiları üstel format 
                             # yerine sabit formatta 
                             # göstermesini söyler. Örneğin, 
                             # <exp(28)>'in sonucu olarak 
                             # <1.446257e+12> yerine 
                             # <1446257064291>. 

     options()               # seçenekleri görüntüler.
\end{verbatim}}


\subsection{Yardım alma}


{\small \begin{verbatim}
     help.start()            # yardım sayfalarını açar.
     help(lm)                # <lm> doğrusal model 
                             # (linear model) 
                             # ile ilgili yardım.
     ?lm                     # yukarıdaki ile aynı.
\end{verbatim}}


\section{Temel komutlar}

{\small \begin{verbatim}
     ls()                   # tüm nesneleri listeler. 
     ls.str()               # tüm nesnelerin detaylarını listeler. 
     str(nesnem)            # <nesnem>'in detaylarını listeler. 
     list.files()           # dizindeki tüm dosyaları listeler. 
     dir()                  # dizindeki tüm dosyaları listeler.
     nesnem                 # basit olarak nesneyi görüntüler. 
     rm(nesnem)             # <nesnem> nesnesini kaldırır. 
     rm(list=ls())          # çalışma alanındaki tüm nesneleri 
                            # kaldırır. 
                                    
     save(nesnem, 
     file="nesnem.rda")     # <nesnem> nesnesini <nesnem.rda> 
                            # dosyasına kaydeder. 
                                    
     load("calismam.rda")   # "calismam.rda"'yı hafızaya yükler.
     summary(verim)         # <verim> için basit istatistikleri 
                            # görüntüler. 
                                    
     hist(x,freq=TRUE)      # <x> nesnesine ait histogramı 
                            # görüntüler. 
                            # <freq=TRUE> frekansı gösterir ve
                            # <freq=FALSE> olasılıkları gösterir.
                                    
     q()                    # R'dan çıkar.

\end{verbatim}}
Bir komutun çıktısı doğrudan \verb+< <- >+ kullanılarak bir nesneye 
atanabilir ki bu durumda nesneye bir değer atanmış olur. Aşağıda yer
alan kodun ilk satırı $1$,$2$ ve $3$ değerlerini içeren \verb+<VV>+
isimli bir nesne yaratır. İkinci satır ise \verb+<VV>+ isimli bir
nesne yaratır ve \verb+<VV>+ nesnesinin içeriğini görüntüler. 

<<A Vector>>=
VV <- c(1,2,3)
(VV <- 1:2)
@


\section{Veri düzenleme}
\subsection{Düz metin formatında veriyi okuma:}

\textit{Sütunlarda veri}

Bu örnekteki veri seti bir metin dosyasındandır.
\texttt{\htmladdnormallink{<tmp.txt>}{
http://people.su.se/~ma/R_intro/data/tmp.txt}} dosyası ilk satırında
değişken isimlerini içermektedir (isimler boşluk ile ayrılmıştır) ve bu 
değişkenlerin değerleri diğer satırlarda yer almaktadır (değerler
 boşluk ile ayrılmıştır). 

Aşağıdaki kod \verb+<tmp.txt>+  dosyasının içeriğini okur ve bunu
\verb+<dat>+ isimli bir nesneye atar.

<<Reading data>>=
FILE <- "http://people.su.se/~ma/R_intro/data/tmp.txt"
dat <- read.table(
file= FILE,
header = TRUE)
dat 
@

\verb+<header = TRUE>+ argümanı ilk satırda değişken isimlerinin
olduğunu belirtir. \verb+<dat>+ nesnesi \R'da adlandırıldığı şekliyle
 bir veri setidir.

Eğer \verb+<tmp.txt>+ veri dosyasındaki sütunlar \verb+<,>+ ile 
ayrılmışsa, kod yazımı,

{\small \begin{verbatim}
     read.table("tmp.txt", header = TRUE, sep=",")
\end{verbatim}}

şeklinde olmalıdır.

Eğer ondalık karakteri \verb+<.>+ şeklinde ise bunun tanımlanması gereklidir.
Eğer ondalık karakteri \verb+<,>+ şeklinde ise \verb+<read.csv>+ komutunu
kullanabilir ve ardından gelen argümanı \verb+<dec=",">+ fonksiyonu içerisinde 
tanımlayabilirsiniz.

\subsection{Tablo verisinde mevcut olmayan gözlem (NA) ve sınırlayıcılar}
 
\verb+<data1.txt>+ dosyası aşağıdaki veriyi içermektedir:

{\small \begin{verbatim}
1 . 9
6 3 2
\end{verbatim}}

Burada ikinci sütünda (değişkende) yer alan ilk gözlem 
eksiktir ve \verb+<.>+ olarak kodlanmıştır.\\
\R'a \verb+<.>+'nın eksik değer olduğunu bildirmek için
\verb+<na.strings=".">+ argümanını kullanırız.

<<Read table>>=
FILE <- "http://people.su.se/~ma/R_intro/data/data1.txt"
read.table(file=FILE ,na.strings="." )
@

Bazen sütunlar boşluklardan farklı ayraçlar ile ayrılırlar.
Ayraç, örneğin, \verb+<,>+ olabilir ki bu durumda \verb+<sep=",">+ argümanını
kullanmamız gerekir. 

Eğer sütunlar \verb+<,>+ ile ayrılmışsa ve bazı sütunlarda aşağıdakine benzer 
şekilde boşluklar varsa bu durumda \verb+ <na.strings=".">+ argümanının 
çalışmayacağına dikkat edin. NA aslında iki boşluk şeklinde kodlanır,
bir nokta ve iki boşluk, ve \verb+ <na.strings=".">+ şeklinde
ifade edilmesi gerekir.

{\small \begin{verbatim}
1,  .  ,9
6,  3  ,2
\end{verbatim}}

Bazen eksik değerler basitçe <boşluk> şeklindedir.

{\small \begin{verbatim}
1  9
6 3 2
\end{verbatim}}

İlk satırda 1 ile 9 arasında iki boşluk olduğuna
dikkat edin. Bu ikinci sütundaki değerin boşluk olduğu anlamına
gelir. Bu ise eksik değer anlamındadır. Burada önemli olan şey
\verb+<na.strings="">+ ile birlikte \verb+<sep=" ">+ tanımlanması gerektiğidir. 

\subsection{Diğer formatlarda veri okuma ve yazma}

\verb+<foreign>+ kitaplığını çeşitli standart paketlerin veri formatında verileri
okumak için ekleyin. Örnekler arasında SAS, SPSS, STATA, vs. yer almaktadır.

{\small \begin{verbatim}
     library(foreign)
     # <wage.dta> verisini okur ve <lnu> nesnesine atar.
     lnu <- read.dta(file="wage.dta") 
\end{verbatim}}

\verb+<read.ssd()>+ , \verb+<read.spss()>+, vs. SAS ve SPSS formatlarında verileri 
okumak için foreign paketinin içerisinde yer alan komutlardır. 

Yabancı formatta veri yazmak da kolaydır. Aşağıdaki kodlar <lnu> nesnesini <lnunew.dta>
adındaki Stata dosyasına yazdırır. 

{\small \begin{verbatim}
     library(foreign)
     write.dta(lnu,"lnunew.dta")
     \end{verbatim}}


\subsection{Veri seti nesnesinin içeriğini inceleme}

Burada \htmladdnormallink{İsveç Yaşam Düzeyi Anketi}{http://www2.sofi.su.se/LNU2000/english.htm} LNU 1991'den 
elde edilen veri seti kullanılmaktadır.

<<LNU-data>>=
FILE <-"http://people.su.se/~ma/R_intro/data/lnu91.txt"
lnu  <- read.table(file=FILE, header = TRUE)
@
\verb+<lnu>+  verisini \verb+<attach(lnu)>+ ile iliştirmek \verb+<lnu>+ veri setine ve veri 
setindeki değişkenlere isimleriyle erişimi sağlar.
Eğer \verb+<lnu>+ veri setini iliştirmediyseniz  \verb+<lnu>+ veri setinde yer alan \verb+<female>+
değişkenine atıfta bulunmak için \verb+<lnu$female>+ komutunu kullanabilirsiniz.
Veri setine iliştirilmiş olarak ihtiyacınız kalmadığında iliştirme işlemini \verb+<detach()>+ komutuyla 
geri alabilirsiniz.

\textit{lnu veri setinin içeriğinin tanımlanması.}
<<Summary>>=
str(lnu)       # Veri yapısının tanımı
summary(lnu)   # Veri tanımlamasının özeti
@
\subsection{Veri setinde değişken yaratma ve değişken çıkartma}

Burada \verb+<logwage>+ değişkenini \verb+<wage>+ değişkeninin logaritması olarak tanımlıyoruz.
Sonrasında ise değişkeni çıkartıyoruz.

<<Creating and Removing a variable>>=
lnu$logwage <- log(lnu$wage)
lnu$logwage <- NULL
@

Orjinal değişkenlerin basit dönüştürmeleri olan değişkenleri yaratmaya
gerek olmadığına dikkat edin. Dönüştürmeyi doğrudan hesaplamaların ve tahminlerin içerisinde
gerçekleştirebilirsiniz.

\subsection{Veri setinde yer alan değişkenlerin alt kümesini seçme}
{\small \begin{verbatim}
     # lnu veri setinde (wage,female) 
     # değişkenlerinin altkümesini okuma.
     lnu.female <- subset(lnu, select=c(wage,female)) 
     
     # Veri setinde iki nesneyi (değişkeni) 
     # bir araya getirme.
     attach(lnu)
     lnu.female <- data.frame(wage,female)

     # lnu'da female hariç tüm değişkenleri okuma.
     lnux <- subset(lnu, select=-female)

     # wage'den public'e kadar değişkenleri okuma.
     lnuxx <- subset(lnu, select=wage:public)
     \end{verbatim}}

\subsection{Veri setinde gözlemlerin altkümesini seçme}

     {\small \begin{verbatim}
     attach(lnu)
     
     # Bir değişkende var olan eksik değer 
     # içeren gözlemleri silme.
     lnu <- na.omit(lnu)

     # Sadece female değişkenine ait veriyi saklama.
     fem.data <- subset(lnu, female==1)

     # Sadece female ve public employees 
     # değişkenlerine ait veriyi saklama.
     fem.public.data <- subset(lnu, female==1 & public==1)

     # wage > 90 olan tüm gözlemleri seçme.
     highwage <- subset(lnu, wage > 90)
     \end{verbatim}}

\subsection{Değişkenlerin değerlerini değiştirme}

Okul değişkeni içerisinde yer alan değerleri değiştirerek bireyin üniversite eğitimi alıp almadığını 
gösteren bir değişken yaratıyoruz.

Okul değişkenini kopyalayın.
<<copy>>=
lnu$university <- lnu$school
@

Üniversite değerini eğer okula gidilen yıl sayısı 13 yıldan az ise 0 değeri ile 
değiştirin.

<<replace 1>>=
lnu$university <- replace(lnu$university, 
lnu$university<13, 0) 
@

Üniversite değerini eğer okula gidilen yıl sayısı 12 yıldan fazla ise 1 değeri ile 
değiştirin.

<<replace 2>>=
lnu$university <- replace(lnu$university, 
lnu$university>12, 1) 
@

\verb+<lnu$university>+  değişkeni şimdi üniversite eğitimi için bir kukla değişken haline gelmiştir.
Kaydettikten sonra veri setini tekrar iliştirmeyi unutmayın. Kategori değişkenleri yaratmak için \verb+<cut>+ 
komutunu kullanabilirsiniz. 

<<dummy variable 0>>=
attach(lnu, warn.conflicts=FALSE)
table(university)
@

Kukla değişken yaratmak için şu şekilde ilerliyoruz:
<<Dummy variables 1>>=
university <- school > 12
table(university)
@

Aslında genellikle kukla değişken yaratmamıza gerek yoktur. 
\verb+<school > 12>+ üzerinden doğrudan işlemleri gerçekleştirebiliriz.

<<Dummy variables 2>>=
table(school > 12)
@


\subsection{Eksik değerleri değiştirmek}

Bir vektör yaratıyoruz. Bir değeri eksik değer olarak yeniden kodluyoruz 
ve ardından eksik değeri orijinal değeri ile değiştiriyoruz.

{\small \begin{verbatim}
     a <- c(1,2,3,4)    # vektör yaratır
     is.na(a) <- a ==2  # a==2 'yi NA olarak kodlar
     a <- replace(a, is.na(a), 2)# NA'yı 2 ile değiştirir
     # or
     a[is.na(a)] <- 2
     \end{verbatim}}


\subsection{Faktörler}

Bazen değişkenlerimizin çeşitli aralıklara karşılık gelen uygun düzeydeki 
kategori değişkenleri biçiminde kullanılması için yeniden tanımlanması gerekir.
9 yıla kadar, 10 ila 12 yıl arası ve 12 yıl üstü için okul kategorileri oluşturmak 
isteyebiliriz. Bu \verb+<cut()>+ kullanılarak kodlanabilir. En düşük kategoriyi dahil etmek için 
\verb+<include.lowest=TRUE>+ argümanını kullanırız. 
<<Factor 1>>=
SchoolLevel <- cut(school,
c(9,12, max(school), include.lowest=TRUE))
table(SchoolLevel)
@

Her düzey için etiket ayarlanabilir. Bir önceki bölümde yaratılan üniversite değişkenini ele 
alalım.

<<Factor 2>>=
SchoolLevel <- factor(SchoolLevel, 
labels=c("basic","gymnasium","university"))
table(SchoolLevel)
@


Yukarıdaki gibi tanımlanan bir faktör, örneğin regresyon modelinde kullanılabilir.
Referans kategori en düşük değere sahip düzeydir. \verb+<Basic>+'e
karşılık gelen en düşük değer $1$ 'dir ve <Basic> sütunu karşılaştırma matrisinde yer almamaktadır. 
Taban kategoriyi değiştirmek bu sütun yerine başka bir sütunu dışlayacaktır. 
Bu aşağıda yer alan örnekte gösterilmiştir.

<<Factor 3>>=
contrasts(SchoolLevel)
contrasts(SchoolLevel) <-
contr.treatment(levels(SchoolLevel),base=3)
contrasts(SchoolLevel)
@

Aşağıdaki komut \verb+<school>+ değişkenini sayısal bir değişken olarak tanımlar.

<<As numeric>>=
lnu$school <- as.numeric(lnu$school)
@


\subsection{Veriyi grup bazında toplulaştırmak}
 
V1, V2 ve V3 gibi 3 değişkenden oluşan basit bir veri seti yaratalım. 
V1 grup birimi ve V2 ile V3 iki sayısal değişken olsunlar.

<<Data df1>>=
(df1 <- data.frame(V1=1:3, V2=1:9, V3=11:19))
@

\verb+<aggregate>+ komutunu kullanarak \verb+<sum>+, \verb+<mean>+, vb. grup özelliklerini içeren
yeni bir data.frame oluşturalım. Burada toplam (sum) fonksiyonu \verb+<V1>+ grup birimi ile 
\verb+<df1[,2:3]>+ üzerine yani \verb+<df1>+'in ikinci ve üçüncü sütunlarına uygulanır. 

<<Aggregate 1>>=
(aggregate.sum.df1 <- 
aggregate(df1[,2:3],list(df1$V1),sum))
(aggregate.mean.df1 <- 
aggregate(df1[,2:3],list(df1$V1),mean))
@

<Group.1> değişkeni, grupları tanımlayan bir faktördür.

Aşağıda toplulaştırma (aggregate) fonksiyonuna ilişkin bir örnek yer almaktadır. 
Birim tanımlayıcı \verb+<dat$id>+'yi içeren \verb+<dat>+ şeklinde bir veri setimiz olduğunu
varsayalım. Zaman içerisinde tekrar tekrar gözlemlenen birimler \verb+dat$Time+ değişkeni ile gösterilsin.

<<Aggregate 2>>=
(dat <- data.frame(id=rep(11:12,each=2),
Time=1:2, x=2:3, y =5:6))
@

Bu veri setinde yer alan tüm değişkenler için grup ortalamalarını hesaplar 
ve \verb+<Time>+ değişkeni ile otomatik olarak oluşturulmuş olan grup tanımlayıcı değişken 
\verb+<Group.1>+'i dışlar. 

<<Aggregate between>>=
(Bdat <- subset(aggregate(dat,list(dat$id),FUN=mean),
select=-c(Time,Group.1)))
@

\verb+<id>+ uzunluğunda ve \verb+<id>+ içerisinde yer alan her bir gözlem için tekrarlayan grup 
ortalamalarını içeren bir veri seti yaratmak için \verb+<Bdat>+ ve \verb+<dat$id>+'yi birleştirin.

<<Merge Between>>=
(dat2 <- subset(merge(data.frame(id=dat$id),Bdat),
select=-id))
@

Şimdi \verb+<id>+ ve \verb+<Time>+ tanımlayıcılarını ve diğer tüm değişkenlerin ortalama
değerlerden sapmalarını içeren bir veri seti yaratabiliriz.

<<Within transformation>>=
(within.data <- cbind(id=dat$id, Time=dat$Time,
subset(dat,select=-c(Time,id))  - dat2))
@

\subsection{Farklı veri setlerini kullanma}


Genellikle farklı veri setlerinden verileri kullanmamız gerekir.
\R'da bu verileri, diğer birçok istatistik paket programında olduğu üzere 
tüm verinin aynı anda ve bir tablo şeklinde var olduğu biçimde, 
aynı veri seti içerisine koymamıza gerek yoktur.

Örneğin, değişkenler aynı uzunluğa sahip olduğu sürece (aynı gözlem sayısı) ve aynı sırada 
(tüm değişkenlerdeki i'inci gözlem aynı birime karşılık gelir) olduğu sürece 
bir veri setinden bir değişken, diğer bir veri setinden başka bir değişken kullanarak bir regresyon 
kurmak mümkündür. Aşağıdaki iki veri setini ele alalım:

<<data1 and data2>>=
data1 <- data.frame(wage = 
c(81,77,63,84,110,151,59,109,159,71),
female = c(1,1,1,1,0,0,1,0,1,0),
id     = c(1,3,5,6,7,8,9,10,11,12))

data2 <- data.frame(experience = 
c(17,10,18,16,13,15,19,20,21,20),
id       = c(1,3,5,6,7,8,9,10,11,12))
@

Şimdi veri setlerini birleştirmeden her ikisinden de 
değişkenleri kullanabiliriz. \verb+<data1$wage>+'in  
\verb+<data1$female>+  ve  \verb+<data2$experience>+ üzerine regresyonunu
gerçekleştirelim.

<<variables from different data>>=
lm(log(data1$wage) ~ data1$female + data2$experience)  
@

Farklı veri setlerinde yer alan değişkenleri tek bir veri 
setine yerleştirerek analizimizi bu yeni veri seti üzerinden de gerçekleştirebiliriz.

<<Putting two data together>>=
(data3 <- data.frame(data1$wage,
data1$female,data2$experience))
@

Veri setlerini birleştirebiliriz. Eğer her iki veri setinde de aynı değişken yer
alıyorsa, veri bu değişken ile tutarlı biçimde birleştirilir. 

<<Merge two data sets>>=
(data4 <- merge(data1,data2))
@


Diğer paket programlarda olduğu üzere gözlemlerin \verb+<id>+'de tanımlandığı şekliyle
aynı sırada olmasına gerek olmadığına dikkat ediniz. 

Eğer iki veri setini ortak bir değişken kullanarak eşleştirmek istiyorsak ve bu 
değişken veri setlerinde farklı isimlere sahipse, isimleri aynı olacak biçimde değiştirebilir veya 
veri olduğu şekliyle kullanıp verileri eşleştirirken kullanılacak değişkenleri tanımlayabiliriz.
Eğer \verb+<data2>+ ve \verb+<data1>+ veri setlerinde eşleştirilecek değişken \verb+<id2>+ ve \verb+<id>+ 
ise aşağıdaki yazım kullanılabilir:

{\small \begin{verbatim}
     merge(data1,data2, by.x="id", by.y="id2")
     \end{verbatim}}


\verb+ <by.x="id", by.y="id2">+ argümanları \verb+data1+'da eşleştirme değişkeninin
\verb+id+ ve \verb+data2+'de \verb+id2+ olduğunu ifade eder. 

Aynı zamanda veri setlerini \verb+<data.frame>+ veya \verb+<cbind>+ yardımıyla 
varolan sırasında birleştirebilirsiniz. Bu şekilde veri, veri setindeki sırasında gözlem gözlem eşleştirilir. 
Bu aşağıdaki örnekte gösterilmiştir. 

<<Column bind data frames>>=
data1.noid <- data.frame(wage   = c(81,77,63),
female = c(1,0,1))

data2.noid <- data.frame(experience = c(17,10,18))
cbind(data1.noid,data2.noid)
@

Eğer bir veri setinin sonuna  gözlem eklemek isterseniz, \verb+<rbind>+ kullanabilirsiniz.
Aşağıdaki örnek \verb+<data4>+'teki 2.,3. ve 4. sütunları iki parçaya ayırarak \verb+<rbind>+ 
ile tekrar bir araya getirmektedir. 

<<Row bind>>=
data.one.to.five <- data4[1:5,2:4]
data.six.to.ten  <- data4[6:10,2:4]
rbind(data.one.to.five,data.six.to.ten)
@


\section{Temel istatistikler}
Bir veri setindeki tüm değişkenler için özet istatistikler:
{\small \begin{verbatim}
     summary(mydata)
     \end{verbatim}}

Bir değişkene ait Ortalama (Mean), Ortanca (Median), Standart Sapma (Standard deviation), Maksimum ve 
Minimum:

{\small \begin{verbatim}
     mean (myvariable)
     median (myvariable) 
     sd (myvariable)
     max (myvariable)
     min (myvariable)
     # 10, 20, ..., 90 yüzdelikleri hesapla 
     quantile(myvariable, 1:9/10)
     \end{verbatim}}

\R\ \verb+<sum>+, \verb+<mean>+, vs.'yi \verb+<NA>+ içeren bir nesne üzerine hesapladığında, 
\verb+<NA>+ sonucunu verir. Bu fonksiyonları verinin var olduğu yerdeki gözlemlere uygulamak için
\verb+<na.rm=TRUE>+ argümanını kullanmalısınız. Diğer bir alternatif ise \verb+<NA>+ içeren tüm 
veri satırlarını \verb+<na.omit>+ ile dışlamaktır.

<<Sum when there are NA's>>=
a <- c(1,NA, 3,4)
sum(a)
sum(a,na.rm=TRUE)
table(a, exclude=c())
@

Ayrıca, NA'ları dışlayan ve toplamı hesaplayan \\
\begin{center}
\verb+<sum(na.omit(a))>+ 
\end{center}
veya \verb+<a>+ içerisinde NA olmayan (!is.na) elemanların toplamını hesaplayan \\
\begin{center}
\verb+<sum(a[!is.na(a)])>+ 
\end{center}
\\
kullanabilirsiniz.

\subsection{Çizelgeleme}

\htmladdnormallink{İlk olarak veri setini okutalım}
{http://people.su.se/~ma/R_intro/data/}. 

Çapraz Çizelgeleme
<<Cross tabulation>>=
attach(lnu,warn.conflicts=FALSE)
table(female,public) # frekansları verir

(ftable.row <- cbind(table(female,public),
total=table(female)))
(ftable.col <- rbind(table(female,public),
total=table(public)))
@
{\small \begin{verbatim}
     # Bunu deneyin:  
     # satırlara göre göreli frekans: female
     ftable.row/c(table(female))
     # sütunlara göre göreli frekans: public
     ftable.col/rep(table(public),each=3) 
     # rep(table(public),each=3)  
     # table(public)'deki her değeri 3 kez tekrar eder 
     \end{verbatim}}


Kategoriler ile çeşitli istatistikler oluşturma. 
Aşağıdaki komut erkekler (males) ve kadınlar (female) için ortalama
ücretleri (wage) verir.
 
<<Tapply 1>>=
tapply(wage, female, mean)
@
\verb+<length>, <min>, <max>+, vs. kullanımı erkekler ve kadınlar için 
farklı gözlem sayısı, minimum, maximum, vs. oluşturur.

<<Tapply 2>>=
tapply(wage, female, length)
@

Aşağıda yer alan örnek özel (private) sektör ve kamu (public) sektöründeki erkekler ve kadınlar 
için ortalama ücretleri verir. 

<<Tapply 2>>=
tapply(wage, list(female,public), mean)
@

Aşağıdaki komut ise eş uzunlukta bir vektör yaratarak grup bazında ortalamaları 
hesaplar. Eş uzunluk her grubun tüm elemanları için grup istatistiklerinin elde edildiği anlamına gelmektedir. 
Erkekler ve kadınlar için ortalama ücret:

<<Group variables with ave>>=
attach(lnu, warn.conflicts=FALSE)
lnu$wage.by.sex<- ave(wage,female,FUN=mean)
@
\verb+<mean>+ fonksiyonu  \verb+<min>, <max>, <length>+, vs. ile değiştirilebilir.

 
\section{Matrisler}

\R'da matrisi şu şekilde tanımlarız (\R'da bakınız ?matrix):

3 satır ve 4 sütundan oluşan ve sütunlarında 1'den 12'ye kadar elemanları içeren bir matris:

<<Matrix 1>>=
matrix(1:12,3,4)
@

3 satır ve 4 sütundan oluşan ve satırlarında 1'den 12'ye kadar elemanları içeren bir matris:

<<Matrix 2>>=
(A <- matrix(1:12,3,4,byrow=TRUE))
dim(A)         # Matrisin boyutu
nrow(A)        # Satır sayısı, dim(A)[1] ile aynı
ncol(A)        # Sütun sayısı, dim(A)[2] ile aynı
@

\subsection{Endeksleme}

Bir matrisin elemanları, matris adından sonra köşeli parantez kullanılarak ve aralarına virgül 
olacak şekilde satır ve sütünlara başvurularak listelenebilir. Benzer bir endeklemeyi diğer nesnelerin
elemanlarını listelemek için de kullanabilirsiniz.

\begin{verbatim}
     A[3,]        # 3. satırı listeleme
     A[,3]        # 3. sütunu listeleme
     A[3,3]       # 3. satır ve üçüncü sütun
     A[-1,]       # 1. satır hariç matrisin tamamı
     A[,-2]       # 2. sütun hariç matrisin tamamı
\end{verbatim}

Matris elemanları üzerinde bazı koşulların değerlendirilmesi

<<Matrix 3>>=
A>3   # 3'ten büyük elemanlar
A==3  # 3'e eşit elemanlar
@
Bazı koşulları yerine getiren elemanları listeleme
<<Matrix 4>>=
A[A>6]    # 6'dan büyük tüm elemanlar
@
\subsection{Skalar Matris}

Skalar matris matrisin özel bir biçimidr. 
Köşegen-dışı elemanları sıfır, köşegen üzerindeki elemanları ise 
aynıdır ve eşit sayıda satır ile sütuna sahip olan kare bir matristir.  
Aşağıdaki örnek matrislerin köşegenleri ile ilişkili 
bazı matris özelliklerini göstermektedir. Ayrıca \verb+?upper.tri+ ve 
\verb+?lower.tri+'ye de bakınız.

<<Matrix 5>>=
diag(2,3,3)
diag(diag(2,3,3))
@

\subsection{Matris işlemleri}

\textbf{Matrisin devriği}

Bir matrisin satırlarını sütun, sütunlarını da satır yapmak matrisin devriğini verir.
<<Matrix 6>>=
t(matrix(1:6,2,3)) # 
@
(1:6,2,3) matrisi ve (1:6,3,2, byrow=T) matrisini deneyin.

\textbf{Toplama ve çıkarma}

Toplama ve çıkarma işlmeri boyutları aynı olan matrislere 
veya bir skalar ve bir matrise uygulanabilir.

{\small \begin{verbatim}
     # Bunu deneyin
     A <- matrix(1:12,3,4)
     B <- matrix(-1:-12,3,4)
     C1 <- A+B
     D1 <- A-B
\end{verbatim}}
	

\textbf{Skalar çarpımı}

{\small  \begin{verbatim}
     # Bunu deneyin
     A <- matrix(1:12,3,4); TwoTimesA = 2*A
     c(2,2,2)*A
     c(1,2,3)*A
     c(1,10)*A 
\end{verbatim}}


\textbf{Matris çarpımı}

Matris çarpımı için \R\ <$\%*\%$>  kullanır ve bu sadece matrisler 
uyumlu ise çalışır.

{\small  \begin{verbatim}
     E <- matrix(1:9,3,3)
     crossproduct.of.E <- t(E)%*%E
     # veya çapraz çarpımları elde etmenin daha etkin diğer bir yolu:
     crossproduct.of.E <- crossprod(E)
     \end{verbatim}}

\textbf{Matris tersi}

Kare matris $\textbf{A}$'nın tersi $\textbf{A}^{-1}$ 
şeklinde gösterilir ve $\textbf{A}$ ile çarpıldığında birim 
matris (ana köşegen üzerindeki tüm elemanları 1, köşegen-dışı 
elemanları 0 olan matris) oluşturan matris olarak tanımlanır.


\begin{equation}
\textbf{A}\textbf{A}^{-1}=\textbf{A}^{-1}\textbf{A}=\textbf{I}\nonumber
\end{equation}

{\small \begin{verbatim}
     FF <- matrix((1:9),3,3)
     detFF<- det(FF)            # determinantı kontrol eder     

     B <- matrix((1:9)^2,3,3)   # tersi alınabilir bir 
                                # matris oluşturur
     Binverse <- solve(B)
     Identity.matrix <- B%*%Binverse
\end{verbatim}}

\newpage
\section{En küçük kareler}

EKK kullanarak doğrusal bir regresyon modeli oluşturmak için 
kullanılan fonksiyon \verb+<lm()>+'dir. Aşağıdaki örnekte bağımlı değişken 
\verb+<log(wage)>+ ve açıklayıcı değişkenler \verb+<school>+ ve  \verb+<female>+'dir.
Sabit terim varsayılan olarak dahil edilmektedir. \verb+<lnu>+ veri setini 
tanımlamamıza gerek yoktur çünkü bu değişkenleri içeren veri seti zaten 
iliştirilmiş durumdadır. Regresyon sonucu \verb+<reg.model>+ isimli nesneye atanmaktadır.
Bu nesne ileride \verb+<lm>+ kullanımını gösteren birkaç örnekten 
sonra gösterilecek olan birçok ilginç regresyon sonucunu içermektedir. 

\htmladdnormallink{Veri setini oku}
{http://people.su.se/~ma/R_intro/lnu91.txt} first. 

<<lm 1>>=
reg.model <- lm (log(wage) ~ school + female)
summary (reg.model)
@
Bazen regresyonu veri setinin bir alt kümsei üzerinde kurmak isteyebiliriz.

{\small \begin{verbatim}
     lm (log(wage) ~ school + female, subset=wage>100)
     \end{verbatim}}

Bazen de modelde değişkenlerin dönüştürülmüş değerlerini kullanmak isteyebiliriz.
Dönüştürme <I()> fonksiyonu içerisinde verilmelidir. 
I() birim fonksiyonu anlamına gelmektedir.
\verb+<expr^2>+,  \verb+<expr>+'nin karesidir.

{\small \begin{verbatim}
     lm (log(wage) ~ school + female + expr + I(expr^2))
     \end{verbatim}}

Etkileşimli değişkenler:  \verb+<female>+, \verb+<school>+
{\small \begin{verbatim}
     lm (log(wage) ~ female*school, data=lnu)
     \end{verbatim}}
benzer biçimde:
{\small \begin{verbatim}
     lm (log(wage) ~ female + school + female:school, data= lnu)
       \end{verbatim}}

Sabit terimsiz bir model.
{\small \begin{verbatim}
     reg.no.intercept <- lm (log(wage)  ~   female - 1) 
     \end{verbatim}}
Sadece sabit terim içeren bir model.
{\small \begin{verbatim}
     reg.only.intercept <- lm (log(wage)  ~   1 ) 
     \end{verbatim}}

Aşağıdaki örnek \verb+<female>+ ve \verb+<public>+ değişkenleri ile 
tanımlandığı şekliyle özel ve kamu sektöründeki erkekler ve kadınlar için 
doğrusal model (\verb+<lm>+) tahmin eder. 
\verb+<lnu>+ verisi 4 farklı hücreye ayrılmıştır: (0,0) özel sektördeki erkekler,
(1,0) özel sektördeki kadınlar, (0,1) kamu sektöründeki erkekler ve (1,1) kamu 
sektöründeki kadınlar. Elde edilen \verb+<by.reg>+ nesnesi bir listedir ve 
her elemanın özetini (\verb+<summary()>+) görüntülemek için \verb+<lapply>+ (liste uygula)
kullanılır.

{\small \begin{verbatim}
     by.reg <- by(lnu, list(female,public),
               function(x) lm(log(wage) ~ school, data=x))
     # ayrı regresyonların özeti 
     lapply(by.reg, summary)
     # listedeki ikinci eleman için özet
     # yani özel sektördeki kadınlar için. 
     summary(by.reg[[2]]) 
     \end{verbatim}}

Aşağıdaki komut erkek ve kadın işçiler için değişkenlerin ortalamalarını 
listeler (ilk satır), iki veri setinden \verb+by.female.lnu+ adında bir liste 
yaratır (ikinci satı) ve erkek ve kadın işçiler için bir regresyon tahmini 
gerçekleştirir (üçüncü vfe dördüncü satır).  

{\small \begin{verbatim}
     by(lnu, list(female), mean) 
     by.female.lnu <- by(lnu, list(female), 
           function(x) x); str(by.female.lnu)
     summary(lm(log(wage) ~ school, data=by.female.lnu[[1]]))
     summary(lm(log(wage) ~ school, data=by.female.lnu[[2]]))
     \end{verbatim}}


\subsection{Model formülü ve sonuçlarını görüntüleme}
	
Model formülü
{\small \begin{verbatim} 
     (equation1 <- formula(reg.model))
     log(wage) ~ school + female
     \end{verbatim}}

Tahmin edilen katsayılar
<<Coefficients 1>>=
coefficients(reg.model)     # <coefficients> (katsayılar), 
                            # <coef> olarak kısaltılabilir
@

Standart hatalar
<<Coefficients 2>>=
coef(summary(reg.model))[,2] 
@

\verb+<coef(summary(reg.model))[,1:2]>+ komutu,\\
 \verb+<Estimate>+ (tahminleri)
ve \verb+<Std.Error>+ (standart hataları) görüntüler.

t-değerleri
<<Coefficients 3>>=
coef(summary(reg.model))[,3] 
@

Ayrıca \verb+<coef(summary(reg.model))>+ komutunu da deneyin. Benzer biçimde
lm-nesnesinin diğer elemanlarını: 

Varyans-Kovaryans matrisi: \verb+<vcov(reg.model)>+ : 

Artıklar serbestlik derecesi:\\
\verb+<df.residual(reg.model)>+ \\

Hata kareler toplamı:\\
\verb+<deviance(reg.model)>+ 

ve diğer bileşenler:\\
\verb+<residuals(reg.model)>+\\
\verb+<fitted.values(reg.model)>+\\
\verb+<summary(reg.model)$r.squared>+\\
\verb+<summary(reg.model)$adj.r.squared>+\\
\verb+<summary(reg.model)$sigma>+\\
\verb+<summary(reg.model)$fstatistic>+\\

komutları ile görüntüleyebilirsiniz. 

\subsection{White değişen varyans düzeltilmiş standart hatalar}

\verb+<car>+, \verb+<sandwich>+ ve \verb+<Design>+ paketleri \emph{robust} standart hataları 
hesaplamak için önceden tanımlanmış fonksiyonları içerir. İki farklı 
ağırlıklandırma seçeneği mevcuttur.  

White düzeltmesi
<<White correction using car>>=
library(car)
f1 <- formula(log(wage) ~ female +school)
sqrt(diag(hccm(lm(f1),type="hc0")))
@

<sandwich> kitaplığını kullanarak.
<<White correction using sandwich>>=
library(sandwich)
library(lmtest)
coeftest(lm(f1), vcov=(vcovHC(lm(f1), "HC0")))
@

<car> kitaplığındaki \verb+<hc0>+ ve <sandwich> kitaplığındaki 
\verb+<HC0>+ orjinal White formülünü kullanmaktadır. 
\verb+<hc1>+, \verb+<HC1>+ varyansları $\frac{N}{N-k}$ ile çarpmaktadır. 
<Design> kitaplığını kullanarak:

<<White correction using Design>>=
library(Design, war, warn.conflicts = FALSE)
f1 <- formula(log(wage) ~ female +school)
fm1 <- robcov(ols(f1, x=TRUE, y=TRUE))
@

\subsection{Grup-içi sabit olmayan hata varyansı}

Bu <Design> kitaplığını kullanmaktadır ve verinin <industry> 
değişkeni tarafından da işaret edildiği gibi sektörler arası 
kümelenme gösteridiği durumlara açıklama getirmektedir.

<<Cluster 1>>=
robcov(ols(f1, x=TRUE, y=TRUE), cluster=industry)
@
Grup sayısı M küçük olduğunda standart hataları şu şekilde 
de düzeltebilirsiniz:

<<Cluster 2>>=
library(Design)
f1 <- formula(log(wage) ~ female +school)
M <- length(unique(industry))
N <- length(industry)
K <- lm(f1)$rank
cl <- (M/(M-1))*((N-1)/(N-K))
fm1 <- robcov(ols(f1, x=TRUE, y=TRUE), cluster=industry)
fm1$var <- fm1$var*cl
coeftest(fm1)  
@

\subsection{F-testi}

Kısıtlı (bazı (veya tüm) eğim katsayıları üzerine sıfır kısıtının konduğu) 
ve kısıtsız (sıfır olan ve sıfır olmayan katsayılara izin veren) modelleri 
tahmin edin. Kısıtlı modelde tanımlandığı şekliyle \verb+anova()+ komutunu kullanarak 
ortak hipotezleri test edebilirsiniz.

<<F-test>>=
mod.restricted <- lm(log(wage) ~ 1)
mod.unrestricted <- lm(log(wage) ~ female + school)
anova(mod.restricted,mod.unrestricted)
@

Sabit olmayan hata varyansı altında White varyans-kovaryans matrisini
kullanırız. Modele ait F-değeri aşağıdaki şekildedir. 
Aşağıdaki kodlarda yer alan \verb+<-1>+ sabit terim ile ilişkili 
satır/sütunu dışlar.

<<F-test HC>>=
library(car)
COV <- hccm(mod.unrestricted, "hc1")[-1,-1]
beta <- matrix(coef(mod.unrestricted, ,1))[-1,]
t(beta)%*%solve(COV)%*%beta/(lm(f1)$rank -1)
@

\newpage
\section{Zaman serileri}
\label{Zamanserileri}
\textit{Satırlarda veri}

Zaman serileri genellikle verinin satırlarda olduğu biçimde
olurlar. Örnek olarak \htmladdnormallink{National Institute of
Economic Research}{http://www.konj.se} tarafından gerçekleştirilen 
İsveç Tüketici Anketi verisi kullanılmıştır. Veri setinde üç seri yer almaktadır: 
tüketici güven endeksi, bir makro endeks ve bir de mikro
endeks.

İlk olarak orjinal veri metin formatında bir dosyaya kaydedilmiştir. 
Veri \R'da girdi olarak kullanılmadan önce bir metin düzenleyicisi kullanılarak
boşluk ile ayrılmış ilk üç serinin değerleri dosyanın içerisinde bırakılmıştır. 
Seriler satırlardadır. Serilere ait değerler değişken isimleri olmaksızın 
ayrı satırlarda listelenmiştir. 

\texttt{\htmladdnormallink{<macro.txt>}
{http://people.su.se/~ma/R_intro/data/macro.txt}} dosyasını okumak için, aşağıda yer alan kod  
1993 yılında başlayan ve 12 frekansa (aylık) sahip zaman serisi nesnesini tanımlamadan önce
\verb+<scan>+ ve \verb+<matrix>+ yardımıyla veriyi 3 sütun ve 129 satıra yarleştirir. 
Seriler \verb+<cci>,<macro.index>+ ve \verb+<micro.index>+ olarak adlandırılmıştır. 
\verb+<matrix>+'in varsayılan olarak veriyi sütunlara doldurduğuna dikkat edin. 

<<Macro data 1>>=
FILE <- "http://people.su.se/~ma/R_intro/macro.txt"
macro <-ts(
matrix(
scan(FILE),129,3),
start=1993,frequency=12,
names=c("cci","macro.index", "micro.index"))
@

Burada bir değişkenin gecikmeli değerlerinin yaratılması 
ve veri setine eklenmesi örneği verilmektedir. Hesaplama farklılıkları 
için ayrıca \verb+<diff>+'e bakınız.

\verb+<macro>+ veri setindeki veriye gecikmeli \verb+<cci>+'yi
(1 ay geciktirilmiş) ekleyerek yeni bir veri seti yaratalım. 
\verb+<ts.union>+ fonksiyonu tüm gözlemleri saklayarak serileri
biraraya getirirken, \verb+<ts.intersect>+ yalnızca seilerin çakışan 
kısımlarını saklar. 

<<Macro data 2>>=
macro2 <- ts.union(
macro, l.cci = lag(macro[,1],-1))
@

aggregate fonksiyonu zaman serisi verisinin frekansını değiştirmek 
için kullanılabilir. Aşağıdaki örnek verinin frekansını değiştirmektedir. 
\verb+nfrequency=1+ yıllık veri oluşturmaktadır. \verb+FUN=mean+ zaman 
içerisinde değişkenlerin ortalamasını hesaplamaktadır. Varsayılan
ise \verb+<sum>+'dır. 

<<Annual data>>=
aggregate(macro,nfrequency=1,FUN=mean)
@

\subsection{Durbin Watson}

\verb+<lmtest>+ paketindeki \verb+<dwtest>+ ve \verb+<car>+ paketindeki 
\verb+<durbin.watson>+ kullanılabilir. Ayrıca Breusch-Godfrey yüksek 
sıradan ardışık bağımlılık testi için \verb+<lmtest>+ paketindeki  
\verb+<lmtest>+'e bakınız.

<<Durbin watson>>=
# Fitting the model.
mod1 <- lm(cci ~ macro.index, data=macro)
library(lmtest)
dwtest(mod1)       
@

\section{Grafikler}

\subsection{Grafikleri postscript formatında kaydetme}

{\small \begin{verbatim}
     postscript("myfile.ps")
     hist(1:10)
     dev.off()
     \end{verbatim}}

\subsection{Grafikleri pdf formatında kaydetme}

{\small \begin{verbatim}
     pdf("myfile.pdf")
     hist(1:10)
     dev.off()
     \end{verbatim}}

\subsection{Gözlemlerin ve regresyon doğrusunun grafiğini çizme}

Verinin ve regresyon doğrusunun grafiğini çiz. 
\verb+<school>+'u \verb+<log(wage)>+'e karşı çiz.  

<<Regression, fig=TRUE, echo=TRUE>>=
    X.LABEL= "Okul süresi"
    Y.LABEL= "SEK Log saatlik ücret"
    TITLE <- "Grafik 1: Serpilim ve Regresyon"
    SubTitle <- "Kaynak: Yasam Düzeyi Anketi, LNU, 1991"
    plot(school,log(wage), pch=".", 
    main = TITLE, sub = SubTitle, xlab=X.LABEL, ylab=Y.LABEL)
    abline(lm(log(wage) ~  school ))
    abline(v = mean(school), col="red")
    abline(h = mean(log(wage)), col="red")
@

\newpage 
\subsection{Zaman serileri grafiği}

Zaman serisi veri setini okutarak başlayın.
Ayrıntılar için \ref{Zamanserileri}. kısma bakınız.

Serileri bir grafikte çiz
<<Tsplot, fig=TRUE, echo=TRUE>>=
    TITLE  <- "Grafik 2: Tüketici güven endeksi"
    SubTitle <- "Kaynak: Tüketici Anketi"
    X.LABEL <- "YIL" 
    COLORS = c("red","blue","black")
    ts.plot(macro, col=COLORS,
    main = TITLE, sub = SubTitle, xlab=X.LABEL) 
    legend("bottomright",legend=colnames(macro),
    lty=1,col=COLORS) 
@

\verb+<plot.ts(macro)>+ serileri ayrı ayrı çizdirir. 

\section{Fonksiyon yazma}

Yazım: 
\verb+myfunction <- function(x, a, ...) \{...\}+ şeklindedir.
Fonksiyon için argümanlar fonksiyon gövdesinde, yani \{ \}
içerisinde yer alan kodlar, tanımlanmış işlemlerde kullanılan 
değişkenlerdir. Bir kez bir fonksiyon yazıp onu kaydettiğinizde,  
bu fonksiyonu \{...\} içerisinde tanımlanmış işlemler için 
fonksiyonunuza atıf yaparak ve gerçekleştirilen işlem için 
gerekli olan argümanları kullanarak gerçekleştirebilirsiniz. 

Aşağıdaki fonksiyon bir değişkenin ortalamasının karesini 
hesaplamaktadır. \verb+<ms>+ fonksiyonunu tanımlayarak <x> 
değişkeninin ortalamasının karesini hesaplamak istediğinizde 
her seferinde \verb+<(mean(x))^2)>+ yazmak yerine \verb+<ms(x)>+ 
yazabilirsiniz. 

<<Function square mean>>=
ms <- function(x) {(mean(x))^2}
a <- 1:100
ms(a)
@
\textit{Fonksiyonun argümanları:}

Aşağıdaki fonksiyon argüman içermemektedir ve \verb+<Hosgeldiniz>+ metin 
dizisini görüntülemektedir. 

<<Welcome>>=
welc <- function() {print("Hosgeldiniz")}
welc()
@

Bu fonksiyon \verb+x+ argümanını almaktadır. Fonksiyonun argümanları
yazılmalıdır. 

<<Default values in a function>>=
myprog.no.default <- function(x)
print(paste("I use", x ,"for statistical computation."))
@

Eğer varsayılan değer belirlenmişse, herhangi bir 
argüman yazılmadığında varsayılan değer kabul edilir.

\footnotesize

<<myprog>>=
myprog <- function(x="R") 
{print(paste("I use", x ,"for statistical computation."))}
myprog()
myprog("R and sometimes something else")
@
\normalsize
\subsection{Kümelenmiş Standart Hataları hesaplamak için bir fonksiyon}

Burada kümelenmiş standart hataları hesaplamak için bir fonksiyon 
yer almaktadır (Yukarıda anlatılan \verb+Design+ kitaplığındaki 
\verb+robcov+ fonksiyonuna da bakınız). Argümanlar veri seti 
\verb+<dat>+, model formülü \verb+<f1>+ ve kümelenme değişkenidir \verb+<cluster>+.   

{\small \begin{verbatim}
     clustered.standard.errors <- function(dat,f1, cluster){
     attach(dat, warn.conflicts = FALSE)
     M <- length(unique(cluster))  
     N <- length(cluster)  	
     K <- lm(f1)$rank		
     cl <- (M/(M-1))*((N-1)/(N-K)) 
     X <- model.matrix(f1) 	
     invXpX <- solve(t(X) %*% X) 
     ei <- resid(lm(f1))
     uj <- as.matrix(aggregate(ei*X,list(cluster),FUN=sum)[-1])
     sqrt(cl*diag(invXpX%*%t(uj)%*%uj%*%invXpX))  }
\end{verbatim}}

Son satırı \verb+sqrt(diag(invXpX %*%t(ei*X)%*%(X*ei)%*%invXpX))+ ile\\
değiştirmenin White standart hataları vereceğine dikkat ediniz.

\section{Çeşitli ipuçları} 


\begin{tabular}{ll}

Gelir Dağılımı
& Bakınız
\htmladdnormallink{ineq}{http://cran.at.r-project.org/src/
contrib/Descriptions/ineq.html}.\\
Logit 
& \verb+<glm(formula, family=binomial(link=logit))>.+ \\
& Bakınız \verb+<?glm> & <?family>. +\\
Negatif binom 
& \verb+<?negative.binomial or ?glm.nb>+ in
\htmladdnormallink{MASS,
VR}{http://cran.at.r-project.org/src/contrib/Descriptions/VR
.html}.\\
Poisson regresyonu 
& \verb+<glm(formula, family=poisson(link=log))>.+\\
& Bakınız \verb+<?glm> & <?family>.+\\
Probit 
& \verb+<glm(formula,family=binomial(link=probit))>.+ \\
& Bakınız \verb+<?glm> & <?family>. +\\
Eşanlı denklemler 
& Bakınız 
\htmladdnormallink{
sem}{http://cran.at.r-project.org/src/contrib/Descriptions/
sem.html}, 
\htmladdnormallink{
systemfit}{http://cran.at.r-project.org/src/contrib/
Descriptions/systemfit.html}.\\
Zaman Serileri 
& Bakınız \verb+<?ts>+ 
\htmladdnormallink{tseries}{http://cran.at.r-project.org/src
/contrib/Descriptions/tseries.html},  
\htmladdnormallink{urca}{http://cran.at.r-project.org/src/
contrib/Descriptions/urca.html} ve
\htmladdnormallink{strucchange}{http://cran.at.r-project.org
/src/contrib/Descriptions/strucchange.html}.\\
Tobit 
& Bakınız \verb+<?tobin>+,  
\htmladdnormallink{
survival}{http://cran.at.r-project.org/src/contrib/
Descriptions/survival.html} içerisinde.\\
\end{tabular}


\section{Teşekkür}

Michael Lundholm , Lena Nekby ve Achim
Zeileis'e değerli yorumları için minnettarım.

\newpage
\bibliography{LittBibRintro}
\bibliographystyle{plainnat}

\end{document}
<<BibTex, echo=FALSE>>=
write(paste(
"@BOOK{AER,
  AUTHOR       = {Christian Kleiber and Achim Zeileis},
  TITLE	       = {Applied Econometrics with R},
  PUBLISHER    = {Springer},
  YEAR	       = 2008,
  ADDRESS      = {New York},
  NOTE	       = {ISBN 978-0-387-77316-2},
  URL = {http://www.springer.com/978-0-387-77316-2}}"
,
"@Book{Dalgaard,
  author       = {Peter Dalgaard},
  title	       = {Introductory Statistics with {R}},
  edition      = {2nd},
  year	       = 2008,
  publisher    = {Springer},
  note	       = {ISBN 978-0-387-79053-4},
  pages	       = 380,
  url	       = {http://www.biostat.ku.dk/~pd/ISwR.html},
  publisherurl =
{http://www.springer.com/statistics/computational/book/978-0
-387-79053-4}}"
,
"@Book{FOX,
  author       = {John Fox},
  title	       = {An {R} and {S-Plus} Companion to Applied
Regression},
  publisher    = {Sage Publications},
  year	       = 2002,
  address      = {Thousand Oaks, CA, USA},
  note	       = {ISBN 0-761-92279-2},
  url	       =
{http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/
index.html}}"
,
"@Manual{Rcore,
 title        = {R: A Language and Environment for
Statistical Computing},
 author       = {{R Development Core Team}},
 organization = {R Foundation for Statistical Computing},
 address      = {Vienna, Austria},
 year         = {2008},
 note         = {{ISBN} 3-900051-07-0},
 url          = {http://www.R-project.org} }"
,
"@Unpublished{Koenker07,
 author      = {Koenker, Roger and Zeileis, Achim},
 year        = {2007},
 title       = {Reproducible Econometric Research 
 (A Critical Review of the State of the Art)},
 note        = {Report 60, Department of Statistics and
Mathematics, 
 Wirtschaftsuniversität Wien, Research Report Series},
 url         =
{http://www.econ.uiuc.edu/~roger/research/repro/}}"
,
"@Book{VR,
 author    = {William N. Venables and Brian D. Ripley},
 title	   = {Modern Applied Statistics with {S}. Fourth
Edition},
 publisher = {Springer},
 year      = 2002,
 address   = {New York},
 note	   = {ISBN 0-387-95457-0},
 url	   = {http://www.stats.ox.ac.uk/pub/MASS4/},
 publisherurl       =
{http://www.springeronline.com/sgw/cda/frontpage/0,11855,4-
40109-22-1542120-0,00.html}}"
,
sep="\n"),
file="LittBibRintro.bib")
@