大数据+物联网智能交通系统

随着个人奢侈品和就业机会的迅速增加，人们更喜欢自己驾驶汽车来满足他们的交通需求而不是使用公共交通，由于访问的简单性和随时使用汽车的能力，这导致交通严重拥堵和交通信号灯等待时间过长，这已成为所有大城市的一大困难。这将影响环境，由于大量的汽车产生的污染，也将打乱个人的时间安排。

本文的目的是演示如何使用数据分析、机器学习算法和物联网来预测流量，创建有关实时交通拥堵的准确数据，以及将使用导航的车辆疏导到不太拥挤的路线。该系统的设计基于摄像头视频的图像分析，以及在移动设备中使用 GPS 监控特定路线上的交通。如果将这两个因素结合起来，可能会产生有关交通拥堵的有意义的统计数字。下一部分使用所提供的数据计算到达目的地的最有效路线，以减少流量并在短时间内到达。

1、介绍

造成"交通拥堵"问题的主要原因是使用私家车而不是乘坐公共交通工具上下班。个人不乘坐公共交通工具的原因可能有多种。然而，这个问题不能仅仅通过鼓励个人使用公共交通而不是自己的汽车来解决。

我们利用机器学习的新发展和数据分析的多种算法，为这个问题设计了一个智能解决方案。随着通信和传感技术的飞速发展、低成本和有效的传感器、更高的数据存储和检索效率以及大量数据的低成本存储，我们很容易提取和利用数据。现行交通管制系统采用预先编程的信号变更时区间机制，数据分析的主要问题是收集相关且可使用的数据，以便设计解决方案。必须将不断更新的数据上传到数据模型，算法生成的预测技术必须能够从这些不断增长的数据中提供正确的报告。

项目的主要数据源是众包数据。如今，随着汽车行业技术的进步，GPS传感器正被应用于汽车智能应用，从汽车中收集的GPS数据可能非常有利于开发数据模型。GPS 传感器（全球定位系统）决定车辆的精确位置，根据所有汽车的位置，可以预测是否存在交通拥堵。这些数据对于确定某一地点的流量速率或流量密度特别有价值。交通密度可以通过将特定汽车的位置与该地点方圆 100 米范围内的汽车数量进行比较来估算。车辆的速度在这方面也有显著的影响。另一个有用的数据来源是路线上安装的视频监控摄像头。

图像分析技术可用于估计路线上的汽车数量。OpenCV 是计算机视觉相关功能的集合，主要面向实时计算机视觉。这可用于实时视频分析，以计算交叉的车辆数量。最终，我们可以用车辆通过视频监控的时间计算交通速率使，还可以通过计算道路上的车辆数量与车辆速度来计算交通密度。

建议架构的主要组成部分之一已在平台原型中进行了重新修改，该原型特别依赖于Kafka，这是高效处理大数据流的有效工具。由于Kafka的内置机制，记录评估是可扩展的，即可以扩展到大量记录源，同时以过高的速度发送记录，并且可靠，即它可以容忍硬件故障而不丢失记录。

论文的其余内容组织如下：在第二节中，我们概述了现有的交通管制机制和使用各种技术的智能方法。在第三节中，详细解释了建议的架构及其如何克服目前智能交通管理的方法。在第四节中，我们讨论结论和预期结果，并建议进一步研究。

2、背景

智能交通管理系统的特性

这项工作的目标是使用Kafka —最流行的大数据技术之一 —以开发一个可扩展的实时交通管理系统。因此，调查当前控制系统与 Kafka 流分析之间的相似性和差异至关重要。观察情况（数据收集）和执行确定的控制战略是实时交通管制系统（数据处理和信息传播）的两个基本组成部分。本地系统检查实时输入数据，然后对这些数据进行组合和处理，以确定方案（例如事件检测）。当超过阈值时，使用既定技术之一优化控制器目标功能。在某些情况下，中心系统设定了战略目标，而本地系统则具有足够的灵活性，能够适应不断变化的情况。最普遍的流量控制技术是反馈回路和模型预测控制（MPC），然而它们大多是单一目标的，需要有目的地感知的数据（即基本流量参数）。

大数据分析

通过使用称为聚类的存储和处理单元的集合，大数据分析技术根据必须检查的数据的规模和速度进行扩展。这克服了单个 CPU 和硬盘容量的限制，但增加了相关工具的配置和运行过程的复杂性。大数据分析的核心前提是"将计算带到数据中"：大数据集群中的每台计算机都根据自己的本地存储数据集（map）工作：然后对单个计算机的结果进行汇总和（reduce）。

不同的大数据分析解决方案已经演变，以支持各种应用程序和用户需求。主要对比是工具之间，这些工具对历史数据进行所谓的批量分析，这些工具通常存储在Hadpp布式文件系统（HDFS）或 NoSQL 数据库（例如，Cassandra、HBase）。Spark、Hadoop的 MapReduce 和 Tez，以及各种类似 SQL 的前端（如Hive和Pig）都是批量分析技术的例子。另一方面，有些工具使用流分析，即那些在数据到达预设时间框架时分析数据的工具。当数据驱动型选择必须快速做出时，这是理想的选择。Flink、Kafka Stream（Kafka扩展）和Spark Streaming都是这一领域值得注意的技术。

3、大数据分析方法

机器学习是大数据生态系统中最广泛使用的建模和分析技术，因为它能够从海量数据中提取模式和模型。机器学习理论在 ITS 部门也被广泛用于进行数据分析。机器学习算法可分为有监督、无监督和强化学习方法，具体取决于可用于学习的数据集的完整性。近年来，随着人工智能的飞速发展，强大的深度学习模式已经被应用到 ITS 中。

3.1 有监督学习

有监督学习是机器学习的子集，计算机在有标签数据集上进行训练，然后根据这些数据预测输出。标记数据表明，某些输入数据已标记为所需的输出。在有监督学习中，呈现给机器的训练数据承担监督角色，指导机器如何准确预测输出。它采用了学生在老师的监督下学习的相同原则。有监督学习是给机器学习模型提供适当的输入和输出数据的过程。有监督的学习算法的目标是发现映射函数，该映射函数将输入变量（x）映射到输出变量（y）。

在这里插入图片描述

3.2 无监督学习

在某些模式识别任务中，训练数据包括一组输入向量 x，这些输入载体没有任何相关的目标值。这种无人监督的学习任务的目标可能是在数据中定位类似实例的集群，称为聚类过程，或计算空间中数据的分布，这个过程称为密度估计。换句话说，用 n 样本空间 x1 到 xn，每个样本不提供真正的类标签，导致所谓的无监督学习。

无监督学习的主要问题是：

无监督学习比有监督学习更难。
在没有标签的情况下，我们如何知道这些发现是否有意义？
允许专业人员检查结果（外部评估）
定义聚类目标函数（内部评估）

无监督学习可进一步分为两类：

参数化无监督学习：在这种情况下，我们假设数据是参数分布的。它基于这样一种假设，即样本数据来自由预先定义的参数集定义概率分布的群体。从理论上讲，normal分布族的每个成员都有相同的形式，并且由平均值和标准偏差进行参数化。即，如果你知道分布的均值和标准偏差，并假设它是normal分布，就可以计算未来任何观测的概率。它涉及高斯混合模型的构建和使用期望最大化方法来预测样本的分类。此实例远比传统的监督学习困难得多，因为没有相应的标签，因此没有适当的正确性衡量标准来验证结果。
非参数无监督学习：在非参数化的无人监督学习版本中，数据被聚类，每个组集（理想情况下）包含有关数据中所表示的类别和类别的信息。这是一种常用的技术，用于建模和分析样本量很小的数据。与参数模型相比，非参数模型不需要建模者对样本的分布做出任何假设，因此有时被称为无分布技术。

3.3 深度学习

深度学习模型可以比传统的机器学习模型获得更好的性能。它们已广泛应用于智能交通管理系统。在交通流量领域，深度学习模型已成为预测交通流量密度的常用工具。深度学习模型比典型的人工神经网络具有更广泛的系统功能和更复杂的设计，因此可以优于典型的机器学习模型。它们已在 ITS 系统中广泛实施。

例如，使用出租车的 GPS 数据，使用深度受限的Boltzmann机器和递归神经网络架构来模拟和预测交通拥堵的增长。使用大数据后，使用深度神经网络进行缺陷诊断。输入由从所有高速公路接收的数据组成。考虑到流量的时间关系，利用以前时间间隔的数据，即 xt-1，xt-2,…,xt-l，在时间间隔 t 时预测流量。建议的模型内在考虑了交通流量的地理和时间相关性。
在这里插入图片描述

Kafka

从技术上讲，场合流是从事件流形状内的场合源（如数据库、传感器、蜂窝设备、云服务和软件程序）实时拍摄统计数据的实践：将这些场合流持久存储，以便以后检索;除了回顾性地实时操纵、处理和响应时事流外;并根据需要将场合流路由到不同的地点的技术。因此，事件流保证了统计数据的不停调整和解释，以便正确的事实运用于适当的地点，在适当的时间。

4、大数据收集来源

来自 GPS 的大数据

GPS 是跟踪行踪的最广泛使用的方法。通过 GPS 位置监控，可以更有效、更安全地获取流量数据。通过结合地理信息系统（GIS）或其他地图显示技术，GPS 提供了收集数据的潜在工具，可利用已获得的数据解决各种交通挑战，包括旅行模式识别、行程延迟评估和交通监控。

闭路电视图像处理

许多社区现在拥有负担得起的视频监控系统，通常称为闭路电视（CCTV）。近年来，它们取得了显著的扩展，通常包括各种分辨率、安装点和帧速率不同的摄像机。CCTV 每周七天、每天 24 小时运行，并创建大量数据，称为"大数据"。除其他事项外，这些数据可用于为自动流量监控系统提供基础。

在这里插入图片描述

该系统主要由两个方块组成：

对象检测
多对象跟踪

对象检测

到目前为止，大多数对象探测器都基于卷积神经网络（CNN），分为两类：单级探测器和两级探测器。单级探测器通常速度很快，可以预测单个网络运行中的对象边界框以及类。YOLO 和 SSD 是两个众所周知的单级探测器。当目标占据图片的很大一部分时，这些设计表现尤其出色。著名的UA-DETRAC车辆检测数据集就是此类数据的一个例子。mitriy Anisimov和Tatiana Khanova用这些数据证明，一个适当开发的类似SSD系统探测器可以在当前CPU上以每秒40帧以上的速度工作，同时保持可接受的精度。YOLO v2 架构是一个很好的速度精度权衡的另一个例子，它通过使用锚定聚类、额外损失正常化和多层功能融合方法优化了车辆识别。

多对象跟踪

由于之前所述对象探测器精度的提高，tracking-by-detection模式已成为多对象跟踪（MOT）任务的实际标准。跟踪在此范式中定义为数据关联（DA）问题，目标是将多个帧中的模糊检测组合到扩展的轨迹中。

传统上，按检测方式跟踪仅取决于探测器的运动信息，并使用优化方法解决 DA 问题。多假设跟踪（MHT）和联合预测数据协会过滤器（JPDAF）是众所周知的示例。虽然这些算法逐帧处理关联问题，但它们的组合复杂性随着受监控对象的数量呈指数级增长，使其不适合实时跟踪。另一方面，最近的 SORT 跟踪器显示，带有 Kalman 过滤运动预测的基本匈牙利算法可以达到实时处理速度，同时保持可接受的性能。

传感器的大数据

ITS 中部署的传感器可捕获车辆速度、车辆密度、交通流量和行驶时间等数据。道路传感器（例如红外和微波探测器）已经演变为收集、计算和传输交通数据。传感器数据收集可分为三类：路边数据、浮动汽车数据和广域数据。术语"道路数据"主要指位于路边的传感器收集的数据。多年来，传统的路边传感器，如电感磁环、气动道路管、压电环阵列和微波雷达被采用。随着技术的最新进步，下一代路边传感器，包括超声波和声学传感器系统、磁性车辆探测器、红外系统、光检测和测距（LIDAR）以及视频图像处理和检测系统，正逐步普及。浮动车数据（FCD）主要是指使用植入汽车的特定探测器在 ITS 系统内不同位置收集的车辆移动数据。某些车载传感器提供可靠和高效的数据，用于路线选择和估计。流行的 FCD 传感器技术包括自动车辆识别（AVI）、车牌识别（LPR）以及探测汽车和电子收费标签等转发器。广域数据是指使用各种传感器监控方法（包括光度处理、录音、视频处理和天基雷达）在大面积获取的流量数据。

目前，汽车部门正在引入传感器，以监控车辆的方方面面。评估路线，并使用 3D Mapper 检测内容，这用于识别自动驾驶汽车中的障碍物。该技术用于机器学习，以增强形式和运动的识别与分类。车辆的这些数据可以通过物联网进行通信，这对为智能交通管理系统的分析提供大数据可能非常有益。

社交媒体

社交媒体（另称社交网络服务或社交网站）是一种 Web 2.0 产品，它使互联网从信息领域转变为互动和影响领域。

社交媒体的基本含义是迷人的，因为服务面广。

我们可以总结如下："社交媒体是基于网络的应用程序，使用户能够相互交互。

为了一致性，我们将利用Boyd和Ellison对社交媒体的定义，该定义将其定义为使用户能够：a）维护公共或半公共个人个人形象的服务;b）通过与其他用户连接来构建社交网络;和 c）探索和响应连接。

相比之下，考虑到学习环境，Kietzmann等人开发了一个由七种不同的社交媒体功能组成的蜂窝结构：

a）存在

b）共享

c）对话

d）分组

e）声誉

f）身份

g）与每个社交媒体网站连接，以争取上述混合，并优先选择三个或四个功能。

出租车服务的开源数据

随着客户越来越多地使用 Uber 和 Lyft 等出租车服务，应用程序正在使用的汽车和交通路线的这些数据可用于提供数据模型并预测流量，从而在预测流量的同时提供更好的结果。来自此类应用的数据可能是可靠的，并且可能是准确的，因为驱动程序遵循应用中显示的路径，并且数据将不时更新。从中，我们可以在城市中获取实时更改数据或流量中的实时更新。这些数据还可用于训练模型，因为有些数据将每天重复出现，因为有些数据可能更喜欢每天通过出租车进行工作。

V. 建筑

旅行速度预测一直是最难解决的问题之一。个人数据源（如闭路电视摄像机和交通传感器数据）传统上被控制器用于馈送回归或时间系列预测模型。这些方法不使用大量和多样化的运输数据，这些数据可以使用当代数据、工程和机器学习工具进行分析。通过摄入和集成大量不同数据，可以利用尖端的深度学习，在典型操作环境下为路网创建快速、高性能的速度预测。当路网运行不正常时，通常会出现最引人入胜的情况。如果发生特殊事件、道路施工或交通事故。由于训练数据不足，AI 模型传统上一直难以应对此类偶发性非经常性事件。在某些情况下生成高质量预测的几种方法，包括使用经典的流量模拟来分析关键的非经常性事件可以实现。模拟可能会运行许多场景，并使用预先配置的反应策略对旅行者的结果进行比较。

在这里插入图片描述

数据分析引擎分析和/或控制每个客户建立的逻辑，其范围可能从基本的反馈回路到复杂的机器学习算法。此外，客户可以选择获得分析引擎输出的时间间隔。收到数据时，使用用户定义的减员功能处理数据。这些功能是特定主题。例如，在速度数据的情况下，合适的减速器函数可以计算传入数据的移动平均值。每个时间段结束时运行单独的评估器函数。评估员可以访问所有减员的输出：在这里，可以根据对各种减员的综合分析做出判断。在自动流量控制的情况下，评估员通过更改提供商有条件地激活对流量系统的修改。

在这里插入图片描述

深度学习算法在预测模型中基于所述算法实现。Essien建议的框架由八层双向 LSTM 堆叠自动编码器组成。ReLU 被用作所有相互关联层（不包括输出层）的激活功能，该层为学习过程注入非线性。深度学习网络性能高度依赖于必须通过称为超参数优化或超参数化的过程建立的重要参数。为了确定此调查的理想超参数集，我们使用了网格搜索方法。

算法包括以下评估步骤：

输入：收集特定区域的数据序列

外流：该地区特定道路的预测交通流量

将获得的实际数据分成 70：30 比率进行培训和测试。
在培训数据中选择 b 的回头步骤大小，并在 t 时创建回头观察，称为 x1，x2，x3,…
xb 作为输入，xb+1 作为预期值 yt
建立模型参数、重量 wt 和偏置 c 的随机初始化程序。
使用向前贪婪层明智方法训练模型，并使用双向处理更新模型参数。
后传播算法优化器用于更新模型。
损失功能最小化
将测试数据用于模型验证和随后的再培训程序的另一批培训数据。
代表，直到培训集完成。
返回预测 Y 的输出序列。

6、挑战

数据隐私

在大数据时代，最令人费解和担忧的问题是隐私。在数据传输、存储和使用过程中，个人信息可能会受到损害。从历史上看，从运输网络获得的数据是非个人性质的，如汽车位置和交通流量数据。然而，随着公共和商业部门收集个人数据的增多，隐私问题也日益受到关注。例如，可以随时收集人员和车辆的位置。如果这些数据得不到安全保护，窃取这些数据的人将对数据所有者造成损害。因此，隐私保护对于 ITS 中的大数据应用程序至关重要。为避免个人私人信息被非法泄露，各国政府应采用全面的数据隐私规则，涵盖哪些数据可以发布、数据发布和使用的广度、数据分发的基本原则以及数据可访问性等。运输机构应严格限制个人数据的定义，加强数据安全认证管理，使用更复杂的算法来提高数据安全水平。

处理能力

对于智能流量管理系统中的大数据应用，及时性至关重要：这些应用包括交通数据预处理、交通状态识别、实时交通控制、动态路线引导和实时巴士调度。必须将来自各种来源的各种形式的流量数据与历史数据进行比较，然后快速处理。数据处理系统必须能够处理更复杂且不断增长的数据。如何确保如此庞大和快速的数据的处理及时性是一个重大问题。最近出现了许多支持实时数据源的通用大数据框架，包括Apache Storm、Apache Flink、Apache Samza、Apache Spark Streaming和Kafka Stream。此外，还为 ITS 创建了特殊的大数据处理框架，包括实时流量管理平台和预测路线的平均速度和拥堵区域。这些框架为实时数据处理提供了有效的解决方案。要在云平台中部署这些服务进行实时监控和反馈，需要大量的处理能力、存储和稳定的互联网连接，以便跨不同的平台传输批量数据文件以进行存储和处理。

电源使用

必须创建一个连续的监控系统来始终收集数据。这可以确保预测正确，并且模型会更新任何可能影响模型评估的事故或事件。有力的电源供应用于使系统每周七天、每天 24 小时运行。

7、结论

我们提出了一个完整且适应性强的基于大数据分析的实时流量管理架构，并在本文中进行了深入的学习。架构是对域的需求进行有条不紊的检查的结果。实时深度学习算法与 kafka 流或火花流服务同时结合，用于数据流，可导致开发高度选择的流量预测模型。这项研究的主要弱点是缺乏对真实世界数据的访问。通过使用真实数据对模型进行培训，我们可以显著提高模型的效率。数据收集是一个重大限制因素。维护如此大量的数据需要大量的工作和管理机制。

尽管它简单，但这个真实世界的例子需要分析来自各种来源的庞大和多样化的数据流。虽然使用这种平台只执行传统的控制措施需要付出相当大的努力，但这种多目标控制平台对于新兴的自动驾驶车辆至关重要，特别是对于同时协调所有部件之间的控制措施，例如针对单个车辆移动的战略决策。随着自动驾驶汽车技术的进步，该车型可能有助于汽车预测交通流量和重定向到另一条路线。因此，可以开展更多的研究，将这项技术与无人驾驶汽车和其他车辆相结合，以便以最少的交通中断智能地将用户路由到目的地。另一个需要研究的领域是物联网在智能城市建设中的使用，这可能大大有助于为该模型收集真实世界的数据。

原文链接：基于大数据和物联网的智能交通系统 — BimAnt