在天气预报领域,居然能够提前算出道路的通行状况,这难道不是荒诞不经的天方夜谭吗?然而,在高速公路这片区域,车辆出现的拥堵情况以及缓缓行驶的状态,在很多的时段当中,都与雨雪雾这样的天气状况有着直接的关联。设想一下,如果能够提前几个小时知晓某一段道路即将迎来降雨天气,那么能够推导得出这往后的车流量预报数据都会精准很多。这里面所蕴含的价值,其实就是将数值形式呈现的天气预报模型应用到交通流量的预测当中。
天气数据不是拿来就能用
天气预报给出的数据自身携带着不确定性,举例来说降雨预报或许会出现误差几毫米的情况,直接将这些未经过处理的原始数据投入到预测模型之中,最终得出的结果必定不准确所以首要的步骤是针对天气数据展开清洗工作,把那些显著异常的数值全数去除比如某一气象站忽然报出与周边数据差异极大的温度值这种状况,就需要运用统计学方法来加以识别并处理只有经历过这些过程,才算可得到相对更为精确的历史天气信息,从而为过后的预测工作奠定良好的基础。
缺了数据就得想办法补上
流量检测器偶尔会出现失灵的状况,致使某几分钟的数据出现缺失。要是不对其进行处理,那么模型训练就会存在断层。在这种时候,能够运用最近邻插值法,去寻找时间上最为接近的几分钟数据来加以填补。要是更加精细一些,可以采用时间序列插值,依据前后几小时的流量变化规律,将缺失的值平稳地推算出来。另外还有更为高级的方法,利用机器学习模型学习历史数据特征,直接对缺失值进行预测,如此一来能够最大程度维持数据的完整性,不让模型训练受到影响。
异常数据要揪出来剔掉
在路上要是发生了事故,或者设备出现了故障,就都会产生异常的流量数据。这些异常的值会对模型起到误导的作用,致使它学错规律。有一种统计工具是箱线图,能够用它快速找到那些远远超出正常范围的数值。还有一种更智能的方法,那就是训练深度学习模型,使它可以学会识别正常的交通流模式,一旦出现不符合该模式的异常数据,这个模型就能自动进行标记。这种方法相较于人工设定阈值而言更加灵活,能够发现那些隐藏得非常深的异常情况。
数据尺度要统一才能用
流量数据的单位是辆每小时,然而温度呈摄氏度表示,降雨量属于毫米计量,这般不同量纲的数据放置于一处,数值较大的特征会将数值较小的覆盖,进而影响到模型作出判断。所以针对所有的特征要实施归一化,比如说全都缩放到零至一的区间之内,以此确保它们于模型训练的时候有着平等的地位。有时亦需要运用标准化,把数据转变为契合标准正态分布的形态,这能够使一些对数据分布存有要求的模型展现得更为出色。
挑出关键特征简化模型
关于流量相关的天气因素存在不少,然而其中部分是多余的,像体感温度与实际温度便是高度相关的。借助相关性分析,能够仅留存和流量关系紧密性最强的特征,将那些重复的予以去除,如此一来模型复杂度会降低,而且训练速度也会加快。也能够运用特征重要性评估,例如运用随机森林模型开展一次训练,瞧瞧哪个天气特征对于预测结果的贡献最为突出,接着着重运用这些特征去构建模型。
融合多源数据让预测更准
仅仅依靠气象站所提供的天气数据是远远不够做到全面预报的,将天气预报数据、社交媒体之上有关交通运输事故的爆料信息,甚至于道路施工规划等内容都融合到一起,可以构建出更为立体的预测模型用于交通流量的预测。对于短期流量预测而言,像是未来一到两个小时内此类短时间的流量预测,其对于精度方面的要求是极高的,这就需要把实时的天气数据以快速的方式融汇到对应的模型之中。而长期预测的话,则应该结合数值天气预报模型,把未来几个小时的天气变化走向情形提前纳入到考虑范围当中,只有如此做才能够达成随时跟随天气变化而实现动态的、精准的预测。
下次准备外出之前,你能不能专门瞅一下天气预报,进而再思索一下高速是否会出现堵车情况呢?欢迎于评论区去分享你出行方面的经验。


