lav-patel · yuanborong · Dec 24, 2019 · Dec 24, 2019 · Dec 24, 2019 · Dec 26, 2019
diff --git a/.clang-tidy b/.clang-tidy
@@ -1,4 +1,4 @@
-Checks: 'modernize-*,-modernize-make-*,-modernize-use-auto,-modernize-raw-string-literal,-modernize-avoid-c-arrays,google-*,-google-default-arguments,-clang-diagnostic-#pragma-messages,readability-identifier-naming'
+Checks: 'modernize-*,-modernize-make-*,-modernize-use-auto,-modernize-raw-string-literal,-modernize-avoid-c-arrays,-modernize-use-trailing-return-type,google-*,-google-default-arguments,-clang-diagnostic-#pragma-messages,readability-identifier-naming'
 CheckOptions:
   - { key: readability-identifier-naming.ClassCase,           value: CamelCase  }
   - { key: readability-identifier-naming.StructCase,          value: CamelCase  }

diff --git a/.gitignore b/.gitignore
@@ -101,3 +101,9 @@ R-package/src/Makevars
 .idea
 *.iml
 /cmake-build-debug/
+
+# added by Lav
+venv
+.ipynb_checkpoints
+*.ipynb
+nohup*.out
diff --git a/.ipynb_checkpoints/z_xgboost_aki_tesing-checkpoint.py b/.ipynb_checkpoints/z_xgboost_aki_tesing-checkpoint.py
@@ -0,0 +1,111 @@
+# ---
+# jupyter:
+#   jupytext:
+#     formats: ipynb,py:light
+#     text_representation:
+#       extension: .py
+#       format_name: light
+#       format_version: '1.5'
+#       jupytext_version: 1.3.4
+#   kernelspec:
+#     display_name: Python 3
+#     language: python
+#     name: python3
+# ---
+
+# +
+from sklearn.datasets import load_boston
+import xgboost as xgb
+from sklearn.metrics import mean_squared_error
+import pandas as pd
+import numpy as np
+from sklearn.model_selection import train_test_split
+import os
+from sklearn.metrics import roc_auc_score,  roc_curve
+from matplotlib import pyplot
+from sklearn.metrics import auc
+import seaborn as sns
+from sklearn import metrics
+import datetime
+from sklearn.model_selection import GridSearchCV
+
+print("xgb.__version__ : ",xgb.__version__)
+data_dir= '/home/lpatel/projects/AKI/data_592v'
+#data_dir= '~/projects/AKI/test'
+#data_dir='/home/lpatel/projects/AKI/data'
+train_csv = os.path.join(data_dir,'train_csv.csv')
+test_csv = os.path.join(data_dir,'test_csv.csv')
+weight_csv = os.path.join(data_dir,'weight_csv.csv')
+
+train = pd.read_csv(train_csv)
+test = pd.read_csv(test_csv)
+weight = pd.read_csv(weight_csv)
+#column names are formted inconsitantly 
+weight['col_fmt'] = weight.col.str.replace('-','.').str.replace(':','.')
+
+
+cols = train.columns.tolist()
+X_col = cols[1:-1]
+y_col = cols[-1]
+
+X_train,y_train = train[X_col],train[y_col]
+X_test,  y_test = test[X_col] ,test[y_col]
+
+print(set(X_col) -set(weight.col_fmt.tolist()) )
+print(set(weight.col_fmt.tolist()) - set(X_col) )
+
+weight1_lst =  weight.set_index(keys=['col_fmt']).reindex(X_train.columns.tolist()).weight1.tolist()
+weight2_lst =  weight.set_index(keys=['col_fmt']).reindex(X_train.columns.tolist()).weight2.tolist()
+weight3_lst =  weight.set_index(keys=['col_fmt']).reindex(X_train.columns.tolist()).weight3.tolist()
+weight4_lst =  weight.set_index(keys=['col_fmt']).reindex(X_train.columns.tolist()).weight4.tolist()
+weight5_lst =  weight.set_index(keys=['col_fmt']).reindex(X_train.columns.tolist()).weight5.tolist()
+
+
+
+# +
+def algorithm_pipeline(X_train_data, X_test_data, y_train_data, y_test_data, 
+                       model, param_grid, cv=10, scoring_fit = 'roc_auc',
+                       do_probabilities = True):
+
+    gs = GridSearchCV(
+        estimator=model,
+        param_grid=param_grid, 
+        cv=cv, 
+        n_jobs=4, 
+        scoring=scoring_fit,
+        verbose=2
+    )
+    fitted_model = gs.fit(X_train_data, y_train_data)
+
+    if do_probabilities:
+        pred = fitted_model.predict_proba(X_test_data)
+    else:
+        pred = fitted_model.predict(X_test_data)
+
+    return fitted_model, pred
+
+model = xgb.XGBClassifier(
+    objective='binary:logistic',
+    n_jobs = 6
+)
+param_grid = {
+    'max_depth': [3, 6, 9],
+    'n_estimators': [500, 1000, 1500],
+    'colsample_bytree': [0.05,0.5,0.75],
+    'subsample': [0.5, 0.75, 0.9],
+    'objective': ['binary:logistic'],
+
+}
+
+
+model, pred  = algorithm_pipeline(X_train, X_test, y_train, y_test, model, 
+                                 param_grid, cv=5)
+
+data = pd.DataFrame(model.cv_results_)
+# pd.options.display.max_columns = None
+# pd.options.display.max_rows = None
+print(data)
+t = datetime.datetime.now().strftime('%Y-%m-%d--%H-%M-%S')
+data.to_csv("~/results_parm_cv.csv_weight1_lst" + t)
+print ("done")
+
diff --git a/.travis.yml b/.travis.yml
@@ -21,11 +21,11 @@ env:
 addons:
   homebrew:
     packages:
-      - gcc@9
+      - cmake
+      - libomp
       - graphviz
       - openssl
       - libgit2
-      - cmake
       - wget
       - r
     update: true

diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -1,4 +1,4 @@
-cmake_minimum_required(VERSION 3.3)
+cmake_minimum_required(VERSION 3.12)
 project(xgboost LANGUAGES CXX C VERSION 1.0.0)
 include(cmake/Utils.cmake)
 list(APPEND CMAKE_MODULE_PATH "${xgboost_SOURCE_DIR}/cmake/modules")
@@ -9,9 +9,6 @@ if ((${CMAKE_VERSION} VERSION_GREATER 3.13) OR (${CMAKE_VERSION} VERSION_EQUAL 3
 endif ((${CMAKE_VERSION} VERSION_GREATER 3.13) OR (${CMAKE_VERSION} VERSION_EQUAL 3.13))
 
 message(STATUS "CMake version ${CMAKE_VERSION}")
-if (MSVC)
-  cmake_minimum_required(VERSION 3.11)
-endif (MSVC)
 
 if (CMAKE_COMPILER_IS_GNUCC AND CMAKE_CXX_COMPILER_VERSION VERSION_LESS 5.0)
   message(FATAL_ERROR "GCC version must be at least 5.0!")
@@ -80,14 +77,11 @@ endif (USE_AVX)
 
 #-- Sanitizer
 if (USE_SANITIZER)
-  # Older CMake versions have had troubles with Sanitizer
-  cmake_minimum_required(VERSION 3.12)
   include(cmake/Sanitizer.cmake)
   enable_sanitizers("${ENABLED_SANITIZERS}")
 endif (USE_SANITIZER)
 
 if (USE_CUDA)
-  cmake_minimum_required(VERSION 3.12)
   SET(USE_OPENMP ON CACHE BOOL "CUDA requires OpenMP" FORCE)
   # `export CXX=' is ignored by CMake CUDA.
   set(CMAKE_CUDA_HOST_COMPILER ${CMAKE_CXX_COMPILER})
@@ -99,6 +93,15 @@ if (USE_CUDA)
   message(STATUS "CUDA GEN_CODE: ${GEN_CODE}")
 endif (USE_CUDA)
 
+if (USE_OPENMP)
+  if (APPLE)
+    # Require CMake 3.16+ on Mac OSX, as previous versions of CMake had trouble locating
+    # OpenMP on Mac. See https://github.com/dmlc/xgboost/pull/5146#issuecomment-568312706
+    cmake_minimum_required(VERSION 3.16)
+  endif (APPLE)
+  find_package(OpenMP REQUIRED)
+endif (USE_OPENMP)
+
 # dmlc-core
 msvc_use_static_runtime()
 add_subdirectory(${xgboost_SOURCE_DIR}/dmlc-core)
@@ -146,11 +149,6 @@ endif (JVM_BINDINGS)
 
 #-- CLI for xgboost
 add_executable(runxgboost ${xgboost_SOURCE_DIR}/src/cli_main.cc ${XGBOOST_OBJ_SOURCES})
-# For cli_main.cc only
-if (USE_OPENMP)
-  find_package(OpenMP REQUIRED)
-  target_compile_options(runxgboost PRIVATE ${OpenMP_CXX_FLAGS})
-endif (USE_OPENMP)
 
 target_include_directories(runxgboost
   PRIVATE

diff --git a/Jenkinsfile b/Jenkinsfile
@@ -180,10 +180,10 @@ def BuildCPU() {
     ${dockerRun} ${container_type} ${docker_binary} build/testxgboost
     """
     // Sanitizer test
-    def docker_extra_params = "CI_DOCKER_EXTRA_PARAMS_INIT='-e ASAN_SYMBOLIZER_PATH=/usr/bin/llvm-symbolizer -e ASAN_OPTIONS=symbolize=1 --cap-add SYS_PTRACE'"
+    def docker_extra_params = "CI_DOCKER_EXTRA_PARAMS_INIT='-e ASAN_SYMBOLIZER_PATH=/usr/bin/llvm-symbolizer -e ASAN_OPTIONS=symbolize=1 -e UBSAN_OPTIONS=print_stacktrace=1:log_path=ubsan_error.log --cap-add SYS_PTRACE'"
     def docker_args = "--build-arg CMAKE_VERSION=3.12"
     sh """
-    ${dockerRun} ${container_type} ${docker_binary} ${docker_args} tests/ci_build/build_via_cmake.sh -DUSE_SANITIZER=ON -DENABLED_SANITIZERS="address" \
+    ${dockerRun} ${container_type} ${docker_binary} ${docker_args} tests/ci_build/build_via_cmake.sh -DUSE_SANITIZER=ON -DENABLED_SANITIZERS="address;leak;undefined" \
       -DCMAKE_BUILD_TYPE=Debug -DSANITIZER_PATH=/usr/lib/x86_64-linux-gnu/
     ${docker_extra_params} ${dockerRun} ${container_type} ${docker_binary} build/testxgboost
     """

diff --git a/R-package/DESCRIPTION b/R-package/DESCRIPTION
@@ -63,5 +63,5 @@ Imports:
     data.table (>= 1.9.6),
     magrittr (>= 1.5),
     stringi (>= 0.5.2)
-RoxygenNote: 6.1.0
+RoxygenNote: 7.0.2
 SystemRequirements: GNU make, C++11
diff --git a/R-package/R/utils.R b/R-package/R/utils.R
@@ -145,7 +145,7 @@ xgb.iter.update <- function(booster_handle, dtrain, iter, obj = NULL) {
   if (is.null(obj)) {
     .Call(XGBoosterUpdateOneIter_R, booster_handle, as.integer(iter), dtrain)
   } else {
-    pred <- predict(booster_handle, dtrain)
+    pred <- predict(booster_handle, dtrain, training = TRUE)
     gpair <- obj(pred, dtrain)
     .Call(XGBoosterBoostOneIter_R, booster_handle, dtrain, gpair$grad, gpair$hess)
   }

diff --git a/R-package/R/xgb.Booster.R b/R-package/R/xgb.Booster.R
@@ -288,7 +288,7 @@ xgb.Booster.complete <- function(object, saveraw = TRUE) {
 #' @export
 predict.xgb.Booster <- function(object, newdata, missing = NA, outputmargin = FALSE, ntreelimit = NULL,
                                 predleaf = FALSE, predcontrib = FALSE, approxcontrib = FALSE, predinteraction = FALSE,
-                                reshape = FALSE, ...) {
+                                reshape = FALSE, training = FALSE, ...) {
 
   object <- xgb.Booster.complete(object, saveraw = FALSE)
   if (!inherits(newdata, "xgb.DMatrix"))
@@ -307,7 +307,8 @@ predict.xgb.Booster <- function(object, newdata, missing = NA, outputmargin = FA
   option <- 0L + 1L * as.logical(outputmargin) + 2L * as.logical(predleaf) + 4L * as.logical(predcontrib) +
     8L * as.logical(approxcontrib) + 16L * as.logical(predinteraction)
 
-  ret <- .Call(XGBoosterPredict_R, object$handle, newdata, option[1], as.integer(ntreelimit))
+  ret <- .Call(XGBoosterPredict_R, object$handle, newdata, option[1],
+               as.integer(ntreelimit), as.integer(training))
 
   n_ret <- length(ret)
   n_row <- nrow(newdata)

diff --git a/R-package/R/xgboost.R b/R-package/R/xgboost.R
@@ -5,8 +5,8 @@
 #' @export
 xgboost <- function(data = NULL, label = NULL, missing = NA, weight = NULL,
                     params = list(), nrounds,
-                    verbose = 1, print_every_n = 1L, 
-                    early_stopping_rounds = NULL, maximize = NULL, 
+                    verbose = 1, print_every_n = 1L,
+                    early_stopping_rounds = NULL, maximize = NULL,
                     save_period = NULL, save_name = "xgboost.model",
                     xgb_model = NULL, callbacks = list(), ...) {
 
@@ -18,60 +18,60 @@ xgboost <- function(data = NULL, label = NULL, missing = NA, weight = NULL,
                    early_stopping_rounds = early_stopping_rounds, maximize = maximize,
                    save_period = save_period, save_name = save_name,
                    xgb_model = xgb_model, callbacks = callbacks, ...)
-  return(bst)
+  return (bst)
 }
 
 #' Training part from Mushroom Data Set
-#' 
+#'
 #' This data set is originally from the Mushroom data set,
 #' UCI Machine Learning Repository.
-#' 
+#'
 #' This data set includes the following fields:
-#' 
+#'
 #' \itemize{
 #'  \item \code{label} the label for each record
 #'  \item \code{data} a sparse Matrix of \code{dgCMatrix} class, with 126 columns.
 #' }
 #'
 #' @references
 #' https://archive.ics.uci.edu/ml/datasets/Mushroom
-#' 
-#' Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository 
-#' [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, 
+#'
+#' Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository
+#' [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California,
 #' School of Information and Computer Science.
-#' 
+#'
 #' @docType data
 #' @keywords datasets
 #' @name agaricus.train
 #' @usage data(agaricus.train)
-#' @format A list containing a label vector, and a dgCMatrix object with 6513 
+#' @format A list containing a label vector, and a dgCMatrix object with 6513
 #' rows and 127 variables
 NULL
 
 #' Test part from Mushroom Data Set
 #'
 #' This data set is originally from the Mushroom data set,
 #' UCI Machine Learning Repository.
-#' 
+#'
 #' This data set includes the following fields:
-#' 
+#'
 #' \itemize{
 #'  \item \code{label} the label for each record
 #'  \item \code{data} a sparse Matrix of \code{dgCMatrix} class, with 126 columns.
 #' }
 #'
 #' @references
 #' https://archive.ics.uci.edu/ml/datasets/Mushroom
-#' 
-#' Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository 
-#' [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, 
+#'
+#' Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository
+#' [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California,
 #' School of Information and Computer Science.
-#' 
+#'
 #' @docType data
 #' @keywords datasets
 #' @name agaricus.test
 #' @usage data(agaricus.test)
-#' @format A list containing a label vector, and a dgCMatrix object with 1611 
+#' @format A list containing a label vector, and a dgCMatrix object with 1611
 #' rows and 126 variables
 NULL
 
@@ -107,7 +107,7 @@ NULL
 #' @importFrom graphics par
 #' @importFrom graphics title
 #' @importFrom grDevices rgb
-#' 
+#'
 #' @import methods
 #' @useDynLib xgboost, .registration = TRUE
 NULL
diff --git a/R-package/man/cb.early.stop.Rd b/R-package/man/cb.early.stop.Rd
diff --git a/R-package/man/predict.xgb.Booster.Rd b/R-package/man/predict.xgb.Booster.Rd
diff --git a/R-package/man/xgb.create.features.Rd b/R-package/man/xgb.create.features.Rd