merge.data.PARACOU.R

### MERGE paracou DATA
rm(list = ls())
source("./R/format.function.R")
library(reshape)

############################ read individuals tree data
data.paracou <- read.table("./data/raw/DataParacou/20130717_paracou_1984_2012.csv",
                           header=TRUE,stringsAsFactors=FALSE,sep = ";", na.strings = "NULL")
#barplot(apply(!is.na(data.paracou[,paste("circ_",1984:2012,sep="")]),MARGIN=2,FUN=sum),las=3)

# select good columns
data.paracou <- data.paracou[,c("foret","parcelle","carre","arbre","vernaculaire","idtaxon",
                                "x","y","circ_2001","code_2001","circ_2005","code_2005",
                                "circ_2009","code_2009","campagne_mort","type_mort")]
colnames(data.paracou) <- c("forest","plot","subplot","tree","vernacular","taxonid","x","y",
                            "circum2001","code2001","circum2005","code2005","circum2009",
                            "code2009","yeardied","typedeath")

### change numeric separator
numeric.col.name <-   c("x","y","circum2001","code2001","circum2005","code2005","circum2009","code2009")
for(k in numeric.col.name){
	data.paracou[,k] <- gsub(",",".",data.paracou[,k]); data.paracou[,k] <- as.numeric(data.paracou[,k])
    } ## Replace all , in decimals with .

data.paracou$tree.id <- apply(data.paracou[,c("plot","subplot","tree")],1,paste,collapse="_");
data.paracou$sp <- data.paracou[["taxonid"]]
data.paracou <- data.paracou[,c(ncol(data.paracou),1:(ncol(data.paracou)-1))]

## ## plot each plot
## pdf("./figs/plots.paracou.pdf")
## lapply(unique(data.paracou[["plot"]]),FUN=fun.circles.plot,data.paracou[['x']],data.paracou[['y']],data.paracou[["plot"]],data.paracou[["circum2009"]],inches=0.2)
## dev.off()

############################# SELECT OBSERVATION WITHOUT PROBLEMS
## REMOVE ALL TREES WITH X OR Y >250 m
data.paracou <- subset(data.paracou,subset=(!is.na(data.paracou[["x"]])) & data.paracou[["x"]]<251 &  data.paracou[["y"]]<251)
#### REMOVE PLOTs 16 17 18 ACCORDING TO  GHSILAIN
data.paracou <- subset(data.paracou,subset=! data.paracou[["plot"]] %in% 16:18)
## keep only tree alive in 2001
data.paracou <- subset(data.paracou,subset=!(as.numeric(data.paracou[["yeardied"]])<=2001 & !is.na(data.paracou[["yeardied"]])))


######################################## MASSAGE TRAIT DATA

### read species names
species.clean <- read.csv("./data/raw/DataParacou/20130717_paracou_taxonomie.csv",stringsAsFactors=FALSE, header = T, sep = ";")
species.clean$sp <- species.clean[["idTaxon"]]
species.clean$Latin_name <-  paste(species.clean[["Genre"]],species.clean[["Espece"]],sep=" ")
## keep only one row pers idTaxon
species.clean <- subset(species.clean,subset=!duplicated(species.clean[["sp"]]),select=c("sp","Latin_name","Genre","Espece","Famille","idCIRAD"))

## select only species present in data base
species.clean <-  subset(species.clean,subset=species.clean[["sp"]] %in% data.paracou[["sp"]])
## percentage of species with no taxonomic identification
length(grep("Indet",species.clean[["Latin_name"]]))/nrow(species.clean) ## 25%

dataWD <- read.csv("./data/raw/DataParacou/WD-Species-Paracou-Ervan_GV.csv",stringsAsFactors=FALSE, header = T,sep=" ")
#dataWD <- merge(dataWD, species.clean, by = "idCIRAD", sort = F)
length(unique(species.clean$idCIRAD)) !=  dim(species.clean)
## dataWD uses idCIRAD as identifier, but this is not a unique identifier in species.clean!
## But wood density seems to also be available from seed.traits

### need to read the different traits data based and merge .....
bridge <- read.csv("./data/raw/DataParacou/BridgeDATA.g.csv",stringsAsFactors=FALSE, header = T, sep = ";")
bridge$Latin_name <- paste(bridge[["Genus"]],bridge[["species"]],sep=" ")
### check % of match of the bridg data
sum(species.clean[["Latin_name"]] %in% bridge[["Latin_name"]])/length(species.clean[["Latin_name"]])
## only 307 species /775 are in teh traits data ....

seed.traits <- read.csv("./data/raw/DataParacou/Autour-de-Paracou-Releves-par-trait-et-taxon.txt",stringsAsFactors=FALSE, header = T, sep = "\t")