6人投标
¥{[getMoney(2000)]}
预算
7
天计划工期
{[ job.pattern_id != 9 ? '项目详情' : '职位详情']}
一、数据组织:
1、X 特征 表
x_train(id varchar(20),x_ename varchar(60),x_value double)
每一个样本的ename可能会有很多个,即特征是有多个的(但是每次训练可能不会全部作为该次的训练特征入模),这个希望用一个参数来确定,如在程序开始时指定这次训练的特征有具体哪几个, 例如:x_config=age,heigh.... 数据例子: [10001,age,15],[10001,heigh,172],[10002,age,16],[10002,heigh,172],[10003,age,18],[10003,heigh,180].... 2、Y 表现 表 y_train(id varchar(20),y_flag varchar(1)) 数据例子:[10001,0],[10002,1],[10003,0]....
二、训练方法:
XGB算法、逻辑回归算法,共两个算法(或者你有其他建议可以评估下),采用二分法
三、训练要求:
1、训练集和验证集要求用sklearn.cross_validation进行训练数据集划分。
2、要求用xgb.cv交叉验证看数据的训练效果 3、要求程序能够自动加载预设的XGB多组训练参数(例如设置xgb_config=[[max_depth:5,min_child_weight:1....],[],[]....]), 使用每一组参数来跑,根据AUC分数可以得到本次训练最佳的一组参数。这组参数出来的模型文件保存起来成为pmml,可以用java做以后的预测。 4、可以参考我给出来的代码例子,在上面的基础上改比较好,基础代码比较简单易懂 https://www.jianshu.com/p/35d92c0f452a (可参考这个做主程序) https://segmentfault.com/a/1190000014040317(自动跑参数) https://blog.csdn.net/fyneru_xiaohui/article/details/89286314(交叉验证)
要求会机器学习算法即可,善于沟通。
{[modal.content]}