核心技术

无监督学习

采用最先进的无监督学习技术,基于成功的业界经验,结合国内实际业务数据,广微数据开发出异常检测的无监督学习系统。该算法在国内行业案例中取得成功,其技术水平可以与全球领先者相媲美。



有监督学习

实战挑战:

机器学习算法在实施过程中,经常会面临数据标签不足、加工成本较高、众包质量不一等问题。在上述情况下,需要具备全部真值标签的有监督学习方法便难以施展,而无需标签的无监督学习又不利于量化效果

创新技术:

我们提供一种数据编辑(data programming)方法---利用适量的弱监督信息(如外部信息、规则、业务经验),从中抽象出标签生成模型,该模型生成的标签可以帮助我们进行有监督学习,实现判别式模型的训练

实践效果:

该方法在解决数据不足或质量不一的问题时,简化了加工和整理标签生成规则的流程,快速训练出机器学习模型,数据条件有限前提下实现为业务赋能

模型产品化

基于以上算法训练出来的模型,我们进一步建立了机器学习平台, 包括线下评估和线上预测两部分。通过线下不断的创新发现性能更加优秀的机器学习模型,再利用线上高性能的预测框架将该模型部署在云端,从而迅速提高产品性能。


线下训练系统主要基于现在业界开源首屈一指的框架TensorFlow和XGBoost。


线上预测平台也基于业界最新的开源框架,包括谷歌开发的TensorFlow的TF Serving和Nvidia的TensorRT。该系统可以充分发挥算法的性能,同时满足线上预测所需要的实时性。该框架实现REST API, 利用JSON数据格式在网站前端和服务器后端之间进行数据交换, 提供了所需要的灵活性。

模型可解释性

结合当前前沿算法理论及实践,独立研发出具有自主产权的可解释机器学习模型

机器学习模型可解释性特征体现在:

模型的特征重要性

每一个特征是如何影响到最终预测结果

总体模型评估是如何被每一条特征影响的

模型可解释性的巨大优势:

打破传统机器学习模型黑盒子效应-结果不可解释,树立模型的可信性和透明度,建立机器学习模型和人之间的信任

指导工程师检查数据采集方向,调整特征工程以及模型调试,通过可解释的指导,进一步优化模型

输出结果的可解释性可进一步指导业务人员的工作,提供了解决思路和方向,更好的为辅助业务开展