TRY.R

########################################################
########################################################
###### READ TRY AND FORMAT DATA CHECK ERROR


################
#### use AccSpeciesName because not author name

source("./R/FUN.TRY.R")
library(MASS)
library(doParallel)
library(mvoutlier)

## read TRY data
TRY.DATA <- read.table("./data/raw/DataTRY/TRY_Proposal_177_DataRelease_2013_04_01.txt",
                       sep = "\t",header=TRUE,na.strings="", stringsAsFactors=FALSE)

TRY.DATA2 <- read.table("./data/raw/DataTRY/TRY_Proposal_177_DataRelease_2013_07_23.txt",
                       sep = "\t",header=TRUE,na.strings="", stringsAsFactors=FALSE)

### combine both data set
TRY.DATA <- rbind(TRY.DATA,TRY.DATA2)
rm(TRY.DATA2)
##################################
### ERROR FOUND IN THE DATA BASE
#1
########################
### problem with the seed mass of this obs seed mass = 0 DELETE
TRY.DATA <- TRY.DATA[!(TRY.DATA$ObservationID==1034196 & TRY.DATA$DataName=="Seed dry mass"),]
#### IS "Quercuscrispla sp" an error standing for Quercus crispula synonym of Quercus mongolica subsp. crispula (Blume) Menitsky ? ask Jens
## TRY.DATA[TRY.DATA$AccSpeciesName=="Quercuscrispla sp" ,]


########################
########################
### first create a table with one row per Observation.id and column for each traits and variable

Non.Trait.Data <- c("Latitude", "Longitude", "Reference", "Date of harvest / measurement",
"Altitude", "Mean annual temperature (MAT)","Mean sum of annual precipitation (PPT)",
  "Plant developmental status / plant age","Maximum height reference",
  "Source in Glopnet",  "Number of replicates", "Sun vers. shade leaf qualifier" )

Trait.Data <- sort(names(((table(TRY.DATA$TraitName)))))

##########################
#### REFORMAT DATA from TRY
registerDoParallel(cores=5) ## affect automaticaly half of the core detected to the foreach here I decide to affect 4 cores
getDoParWorkers() ## here 8 core so 4 core if want to use more registerDoParallel(cores=6)

 TRY.DATA.FORMATED <- foreach(ObservationID.t=unique(TRY.DATA$ObservationID), .combine=rbind) %dopar%
	{
            fun.extract.try(ObservationID.t,data=TRY.DATA,Non.Trait.Data,Trait.Data)
	}


## head(TRY.DATA.FORMATED)
## dim(TRY.DATA.FORMATED)

saveRDS(TRY.DATA.FORMATED,file="./data/process/TRY.DATA.FORMATED.rds")

########################
########## READ RDS
TRY.DATA.FORMATED <- readRDS("./data/process/TRY.DATA.FORMATED.rds")
## TRY.DATA.FORMATED[TRY.DATA.FORMATED$ObservationID==1034196,"StdValue.Seed.mass"] <- NA
## head(TRY.DATA.FORMATED)


####################