TRY.R

######################################################## READ TRY AND FORMAT DATA CHECK ERROR


################ use AccSpeciesName because not author name

source("./R/FUN.TRY.R")
library(MASS)
library(doParallel)
library(mvoutlier)

## read TRY data
TRY.DATA <- read.table("./data/raw/DataTRY/TRY_Proposal_177_DataRelease_2013_04_01.txt",
    sep = "\t", header = TRUE, na.strings = "", stringsAsFactors = FALSE)

TRY.DATA2 <- read.table("./data/raw/DataTRY/TRY_Proposal_177_DataRelease_2013_07_23.txt",
    sep = "\t", header = TRUE, na.strings = "", stringsAsFactors = FALSE)

### combine both data set
TRY.DATA <- rbind(TRY.DATA, TRY.DATA2)
rm(TRY.DATA2)
################################## ERROR FOUND IN THE DATA BASE 1 problem with the seed mass of this obs seed mass
################################## = 0 DELETE
TRY.DATA <- TRY.DATA[!(TRY.DATA$ObservationID == 1034196 & TRY.DATA$DataName == "Seed dry mass"),
    ]
#### IS 'Quercuscrispla sp' an error standing for Quercus crispula synonym of
#### Quercus mongolica subsp. crispula (Blume) Menitsky ? ask Jens
#### TRY.DATA[TRY.DATA$AccSpeciesName=='Quercuscrispla sp' ,]


######################## first create a table with one row per Observation.id and column for each traits
######################## and variable
Non.Trait.Data <- c("Latitude", "Longitude", "Reference", "Date of harvest / measurement",
    "Altitude", "Mean annual temperature (MAT)", "Mean sum of annual precipitation (PPT)",
    "Plant developmental status / plant age", "Maximum height reference", "Source in Glopnet",
    "Number of replicates", "Sun vers. shade leaf qualifier")

Trait.Data <- sort(names(((table(TRY.DATA$TraitName)))))

########################## REFORMAT DATA from TRY
registerDoParallel(cores = 5)  ## affect automaticaly half of the core detected to the foreach here I decide to affect 4 cores
getDoParWorkers()  ## here 8 core so 4 core if want to use more registerDoParallel(cores=6)

TRY.DATA.FORMATED <- foreach(ObservationID.t = unique(TRY.DATA$ObservationID), .combine = rbind) %dopar%
    {
        fun.extract.try(ObservationID.t, data = TRY.DATA, Non.Trait.Data, Trait.Data)
    }


## head(TRY.DATA.FORMATED) dim(TRY.DATA.FORMATED)

saveRDS(TRY.DATA.FORMATED, file = "./data/process/TRY.DATA.FORMATED.rds")

######################## READ RDS
TRY.DATA.FORMATED <- readRDS("./data/process/TRY.DATA.FORMATED.rds")


#################### COMPUTE MEAN AND SD FOR SPECIES from FRENCH NFI for 6 key traits
key.main.traits2 <- c("StdValue.Leaf.nitrogen..N..content.per.dry.mass", "StdValue.Seed.mass",
    "StdValue.Leaf.specific.area..SLA.", "StdValue.Stem.specific.density..SSD.",
    "StdValue.Stem.conduit.area..vessel.and.tracheid.", "StdValue.Leaf.lifespan")


############################### READ CSV TABLE WITH LATIN NAME and CODE FOR FRENCH NFI DATA
species.tab <- read.csv("./data/species.list/species.csv", sep = "\t")
species.tab2 <- species.tab[!is.na(species.tab$Latin_name), ]
rm(species.tab)
gc()