属于机器学习常见流程的是

更新时间:2023-03-23 21:01:08作者:佚名

属于机器学习常见流程的是

品牌型号:lenovo ThinkPad X250
系统:Windows 10
软件版本:

属于机器学习常见流程的是

属于机器学习常见流程的是数据获取、特征提取、模型训练和验证、线下测试、线上测试。

1、数据获取:首先从线上拉取用户真实数据,用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考,加快标注速度;标注完成后,数据入库并解决冲突,冲突即是同一个query,两次标注结果不一致,解决冲突的办法一般是人工check,得到一个更准确的标注;

2、特征抽取:NLP任务一般需要抽取数据的特征,如ngram、词典特征、词向量特征、上游模块的输出等。一般离线和在线均需要特征抽取,所以离在线的这部分代码是共用的,避免在线特征抽取和离线不一致。抽取特征时有个小技巧是把能想到的特征均抽取出来,并保存成文本文件,避免重复的执行特征抽取的步骤,在实验的时候用mask的方式去屏蔽掉那些对模型没用的特征,因为针对神经网络这样的模型,值为0的特征一般不影响最终结果(如tanh/ReLU等,但sigmoid激活层可能会影响)。这样抽取出来的特征的格式一般还不能满足机器学习框架的要求,通过脚本转化成机器学习框架要求的格式即可。

3、模型训练和验证:常用的模型训练和验证步骤是:首先以一个简易的算法开始,快速的进行实现,并在交叉验证集上进行验证;然后画出它的学习曲线,通过学习曲线确定是否更多的数据或者更多的特征会对模型的优化有帮助。接着人为地检测交叉验证集中被错误的进行分类的或者预测的样本的共同特征,从实际入手对模型进行调整,不断调整并验证在交叉验证集上的误差,寻找最优的结果,优化模型。

4、线下测试:指在模型验证有提升后,在测试集上测试模型的性能指标。线下测试可以将模型集成在应用程序里测试,也可以单独测试模型。线下测试的指标一般跟具体的业务需求相关,包括:准确率(accuracy)、精确率(precesion)、召回率(recall)、F1值等。

5、线上测试:是模型上线后的测试,是跟业务紧密相关的一个指标。在实际工作中,一般先将版本上线至一个复制小流量环境,打到这个环境的流量同时也打到线上环境,然后同时取出线上环境的结果和复制小流量环境的结果,抽出两者的diff,人工做gsb(good bad same),即针对有diff的case,人工标注小流量好(good),还是线上好(bad),或者两者打平(same),如果good多于bad,说明gsb通过,可以上线供用户体验。这种方法与A/B testing类似。模型上到线上后,可以通过用户行为反馈模型的好坏,如用户点击、pv等。


本文标签: 线上  数据  的是  模型  测试  

为您推荐

ins全称

ins全称是Instagram。Instagram是一款运行在移动端上的社交应用。Instagram名字源自于Instamatic,是柯达从1963年便开始销售的一个低价便携傻瓜相机的系列名。

2023-04-13 09:02

微信班级群怎么取消企业微信

1、首先打开企业微信首页,打开通讯录,选择打开要退出的群。2、然后点击进入到群聊天界面,在群聊天界面点击右上方的图标。3、然后在打开群设置界面中,滑动到最下面的位、最后点击下面位置的退出群聊即可。

2023-04-13 09:02

tap是什么软件

Tap是一个新型的免费自助建站服务平台,Tap主要会为个人用户及企业用户提供服务。针对于不同用户的建站需求,Tap提供了很多免费的网站模板可供选择,并且可以很方便的给你的网站添加功能丰富的网站组件,操作非常简单。

2023-04-13 09:02

税务ukey管理员密码是什么

管理员登录密码为纳税人自行选择设置,根据单位使用要求也可以不设置。增值税发票开票软件(税务Ukey版)有三个密码,即税务Ukey密码、数字证书密码和管理员登录密码。其中税务Ukey和数字证书初始密码均为8个8。

2023-04-13 09:02

189邮箱是什么

189邮箱是面向所有互联网用户的新型邮箱。189邮箱已覆盖所有移动终端,是中国电信为C网手机用户、宽带用户提供的专业电子邮箱服务,它将互联网服务与移动服务结合。

2023-04-13 09:02

滴滴是阿里系还是腾讯系

滴滴不算阿里系也不算腾讯系。滴滴出行是一家独立运营的公司,腾讯只参与投资并未参与经营。滴滴出行母公司为北京小桔科技有限公司,2014年1月获得腾讯3000万美金融资,同年分别入驻qq和微信。

2023-04-13 09:02