R pour les enquêtes de conjoncture de l’INSEE

La prochaine séance du groupe R aura lieu le 17 mai de 13:00 à 14:00 en salle 539 du bâtiment MK1 de l’INSEE, 18Bld Adolphe Pinard, 75014, Paris, accès par la rue Legrand à Malakoff, métro ligne 13, arrêt Porte de Vanves ou Malakoff plateau de Vanves. Vous avez la possibilité de suivre la séance en « conf call » au 0158727502.

Jean-François Eudeline nous présentera l’utilisation de R au sein de la division des enquêtes de conjoncture de l’INSEE. 
Avant l’arrivée de R dans cette entité, de multiples technologies coexistaient (SAS, GAUSS, Excel…) avec en outre un niveau d’automatisation des tâches répétitives assez faible et un morcellement de la connaissance des processus entre plusieurs personnes. La montée progressive de R en remplacement des autres technologies a réellement permis des gains de productivité. Une vrai R-success story.
Publicités

Exports vers Office

La séance du 10 avril 2013 (de 13h à 14h en salle 539, INSEE, bâtiment MK1, 15 Boulevard Gabriel Péri, 92245 MALAKOFF Métro : Malakoff/Plateau de Vanves) sera consacrée aux exports vers excel et vers word, avec en ligne de mire la possibilité de mettre en place des générations automatiques de documents (packages XLConnect, R2wd, RCOM). Cette présentation fait suite à d’autres séances du groupe consacrées à la génération automatique de documents. C’est François Marical (bluestone) qui assurera cette présentation.

Possibilité de suivre le séminaire en conf-call grâce au bons soins de Matthieu Cornec en appelant le 04 37 21 10 65

Les thèmes abordés lors des séances de mai et juin seront les suivants :

  • 17 Mai 2013 : séance consacrée à un exemple de mise en place de R dans une unité de production de l’INSEE (la division des enquêtes de conjonctures en l’occurence) afin d’illustrer les apports de R par rapport aux technologies qui préexistaient. Cet exemple est intéressant dans le sens où avant l’arrivée de R dans cette entité, de multiples technologies coexistaient (SAS, GAUSS, VBA) avec en outre un niveau d’automatisation des tâches répétitives assez faible et un morcellement de la connaissance des processus entre plusieurs personnes. La montée progressive de R en remplacement des autres technologies a réellement permis des gains de productivité. Cela ne veut pas dire que la même chose n’aurait pas pu être réalisée avec une autre technologie mais en tous les cas cela a fonctionné. Cette séance sera présentée par Jean-François Eudeline de la division des enquêtes de conjoncture de l’INSEE.
  • 18 Juin 2013 : la séance sera consacrée à un exemple d’étude en environnement « Big Data » sous R. Cet exemple permettra à Bastien Riera, consultant chez Bluestone, d’expliquer le MapReduce (cadre algorithmique du Big Data) et son implémentation en R

Intégrer son code R dans LaTeX avec knitr, xtable et Rstudio

  • jeudi 28 février à 13h

Lieu : Salle 539, INSEE, bâtiment MK1, 15 Boulevard Gabriel Péri, 92245 MALAKOFF (Métro : Malakoff/Plateau de Vanves)

Inscription : http://doodle.com/z8cztgpnwammpfga

Je présenterai comment Intégrer son code R dans LaTeX avec knitr, xtable et Rstudio

Si vous ne pouvez pas vous déplacer à l’Insee ce jour là, notez que vous pouvez suivre l’exposé très simplement :

  • appelez ce numéro par téléphone : 04 37 21 10 65 (« conf call », merci à Matthieu Cornec qui ne nous a pas tout à fait quitté).
  • suivez les slides :

 

Julyan

Plateforme Datascience avec RStudio et AWS, Interface graphique avec TclTk

  • mercredi 14 novembre 2012 à 13h

Lieu (attention bâtiment MK2) : Salle S013, INSEE MK2, 15 Boulevard Gabriel Péri, 92245 MALAKOFF Cedex (Métro : Malakoff/Plateau de Vanves)

Inscription (pour réserver une salle assez grande… et pour fournir les noms à l’accueil) sur lien : http://www.amiando.com/VXQTNWB.html

Programme :

      1. « Créer votre plateforme de data science avec RStudio, Vertica et Amazon Web Services » par Thomas Cabrol (Dataiku)
      1. « Création d’une interface graphique sous R avec TclTk » par Pascal Eusébio (Insee, PSAR)

Cartographie et Big Data (R+HADOOP)

    • jeudi 11 octobre 2012 à 13h

Lieu (changement) : ENSAE, Salle 26, 3 Avenue Pierre Larousse  92240 Malakoff

Programme :

  1. Traitement de données massives avec R et Hadoop par Alzennyr GOMES DA-SILVA (EDF R&D)
  2. « Introduction à la cartographie avec R » par Joël Gombin (Université de Picardie-Jules Verne –CNRS)

Visualisation avec ggplot2, parallel R

  • mercredi 13 juin de 13h à 14h

Lieu : INSEE MK1 en salle 539,

Programme :

« Visualisation sous R avec ggplot2 » par Roland Rathelot  (CREST)

library(ggplot2)

#Importing datasets
totdb <- read.csv("/Users/roland/Documents/travail/Recherche/Discrimination quartier/bases/R/110602.discquart.csv",header=T,stringsAsFactors=FALSE)

totdb <- within(totdb,{
                p <- 0+(ACTEU6==1)
                ids <- substr(IDAIRE,1,3)
                urbain <- 0+(TUU==1)
                activite <- NULL
                activite[ACTEU6==1] <- "1-emploi"
                activite[ACTEU6 %in% c(3,4)] <- "2-chomage"
                activite[ACTEU6 %in% c(6)] <- "3-inactivite"
                cs <- CSTOTR
                cs[cs %in% c(0,7,8)] <- 8
                dipspe[dipspe=="10aut"] <- "10zaut"
                dipspe[dipspe=="22p"] <- "20p"
                dipspe[dipspe=="22s"] <- "20s"
                dipsimp <- substr(dipp,1,1)
                dropout <- 0+(dipspe %in% c("60","71"))
                group <- NULL
                group[natparfra==1] <- "0Fra"
                group[natparmag==1] <- "1Mag"
                group[natpareus==1] <- "2Eus"
                group[natparafr==1] <- "3Afr"
                group[natparasi==1] <- "4Asi"
                group[natparori==1] <- "5Ori"
                group2 <- NULL
                group2[natparfra==1] <- "0Fra"
                group2[natpar2mag==1] <- "1Mag"
                group2[natpar2eus==1] <- "2Eus"
                group2[natpar2afr==1] <- "3Afr"
                twoimmpar <- 0*p
                twoimmpar[group2 %in% c("1Mag","2Eus","3Afr")] <- 1
                group1 <- NULL
                group1[natparfra==1] <- "0Fra"
                group1[(natparmag==1)&(twoimmpar==0)] <- "1Mag"
                group1[(natpareus==1)&(twoimmpar==0)] <- "2Eus"
                group1[(natparafr==1)&(twoimmpar==0)] <- "3Afr"
                sexe <- NULL
                sexe[femme==0] <- "Hommes"
                sexe[femme==1] <- "Femmes"
                ag2 <- (AG/10)^2
                csmere <- factor(csmere)
                cspere <- factor(cspere)
                SALRED[SALRED==0] <- NA
                idi <- paste(IDENT,NOI,sep='')
                antrim <- paste(ANNEE,TRIM,sep='-')
                antrimz <- zoo::as.yearqtr(antrim)
                })


str(totdb)


# Statistiques univariées

## histogramme

hist(totdb$SALRED)

qplot(SALRED, data=totdb, stat="bin") 

m <- ggplot(totdb, aes(SALRED)) 
m + stat_bin()

m + stat_bin(binwidth=200)

m + stat_bin(breaks=seq(0,10000,100))

## densité

plot(density(totdb$SALRED))

plot(density(totdb$SALRED,na.rm=TRUE))

m <- ggplot(totdb, aes(SALRED)) 
m + geom_density()

m + geom_density() + xlim(c(0,10000))

m +  geom_density(kernel="epanechnikov",adjust=1/2) + xlim(c(0,10000))  

m +  geom_density() + facet_grid(sexe ~ .) + xlim(c(0,10000))  

##m <- ggplot(totdb, aes(SALRED)) + xlim(c(0,10000))  
##m +  geom_density(aes(fill=factor(sexe)))

m <- ggplot(totdb, aes(SALRED,..density.., color=sexe, group=sexe)) + xlim(c(0,10000))  
m +  geom_density(fill=NA)

ggplot(totdb, aes(x=SALRED, y=..density.., fill=sexe)) + stat_density(position="identity", color="black",alpha=.5)+ xlim(c(0,10000))  

## variable qualitative

qq <- ggplot(totdb,aes(activite))
qq + stat_bin()

qq <- ggplot(totdb,aes(activite,fill=sexe))
qq + stat_bin()

qq + stat_bin(position="dodge")

qq <- ggplot(totdb,aes(sexe,fill=activite))
qq + stat_bin()

qq + stat_bin(position="fill")



# Statistiques bivariees

## Scatterpoint

plot(totdb$AG,totdb$SALRED)

qplot(AG, SALRED, data=totdb, main="Salaires par age",asp=1)

p <- ggplot(totdb, aes(AG, SALRED))
p + geom_point()

p + geom_point(shape='.')

p + geom_point(alpha=.1)

p + geom_point(position="jitter",shape='.')

p + geom_point(position="jitter",alpha=.1)

p + geom_point(position="jitter",alpha=.02) + ylim(c(0,10000))

pp <- p + geom_jitter(position=position_jitter(h=0),alpha=.01) + ylim(c(0,10000))

pp + opts(title = "Salaire par age",aspect.ratio=1)+ xlab("Age")+ylab("Salaire mensuel net") + facet_grid(. ~ sexe)


## Regression

p + geom_smooth()

p + geom_smooth() + facet_grid(. ~ sexe)

## Transformation fonctionnelle

qplot(AG, log(SALRED), data=totdb)

ggplot(totdb, aes(AG, log(SALRED))) +  geom_point() 


# Series temp
library(zoo)

ggplot(totdb, aes(x=antrimz, y=SALRED)) + geom_point()

ggplot(totdb, aes(x=antrim, y=SALRED)) + stat_smooth()

« Gagnez de temps en parallélisant vos calculs sous R » par Maxime To (CREST)