近年來,各城市的公共交通運營管理機構正在努力的以城市全局公交交得吧通統籌規劃、優化線網建設、提升管控力、提升樂煙服務滿意度為發(fā)展的核心目标,緻力于更好(地費hǎo)地發(fā)展與管理城市公交,實現其社會(h懂就uì)效益最優化,并最大限度地提高公交企業管理水平、提高公共交中嗎通運行效率。
追溯到北京公交集團的信息化建設,起(qǐ)于1999道道年,已經(jīng)曆了近20年的時(shí)間,集懂著團信息化經(jīng)曆了從無到有,從分散到集成(校技chéng),從自發(fā)建設到統一組織建設用土的發(fā)展過(guò)程。
北京公交集團于2015年10月,啟動了大數音校據示範應用工程,接入公交調度系統、IC卡系統、計劃系統、乘客信息服務系統及接入森車轉發(fā)系統在内的5大業務雜影系統的數據,借助大數據平台提供的實時(shí)和離線計算組件,對(靜能duì)平台所存儲的海量數據進(jìn)行計算分析,實現了集團所還黑關注的運營生産、線路達标、實時(shí)客流、運營調度、定位設備等5大業務部暗個分(30餘類)指标計算和可視化展示需求,與此同時分微(shí),面(miàn)臨的挑戰與日俱增。
1.多種(zhǒng)出行方式競年外争
随著(zhe)出行方式多樣(yàng)化的快速發(fā)展呢歌,出租車、私家車、可定制路線的商務巴士以及共享單車等互聯網文志出行方式迅速普及,傳統公交行業面(m鄉路iàn)臨巨大挑戰,部分線路逐年出現客流量下降匠匠的趨勢。
2.社會(huì)需要
國(guó)家將(jiāng)公共交通地位提到城市發(f輛術ā)展戰略高度,号召建設公交都(dō我爸u)市,同時(shí)日益擁堵的交通體家環境也需要城市大力發(fā)展交通,為城市計林治堵貢獻力量,因此作為公交行業的标杆城市,北京公交需要大力發(fā能人)展公共交通
3.運營模式轉型挑戰
公交系統中龐大的數據一直沉睡,如何運用數據,挖掘數據潛在的業務價值黃快并運用到生産中成(chéng)為企業的關注點。慢跳因此本次建設的一個重大目标就(jiù)是使用大數據技術,內藍融合行業的多源數據,深度挖掘,發(fā)現客流明相規律,并指導生産。
4.系統建設挑戰
公交大數據應用平台系統建設涉及業務系統多,難度門跳大,體現在涉及技術較新、産品選型困難、實施話笑難度大且類似經(jīng)驗不足等,因此公交大數據應用建設是一個反複叠代、線聽循序漸進(jìn)的過(guò)程。
如何應對(duì)這(zhè)些問題?如何利服們用自身創新的大數據解決方案與客戶一起(qǐ)解決這(zhè)些難點?睿至大黃司數據從探尋城市環境下公共交通運行全局活動出發(fā),從目前公高房共交通行業最為關心的問題入手,與北京公交共窗不同設計了最優的解決方案:
北京公交集團大數據應用平台總體架構包括數據源、數據接入、數據存儲計暗玩算、數據服務及應用服務。
數據源層:
數據源層主要分為結構化數據和非結構化數據,結構化數據包括業務系靜就統數據、實時(shí)生産數據和外跳作部數據;非結構化數據包括文檔數據、空間地理數據鐘器、視頻數據和三維模型數據。
數據接入層:
通過(guò)數據集成(chéng)平台,將(jiāng新們)實時(shí)數據、非實時(shí)數據和非結構廠紙化數據進(jìn)行獲取、寫入和統一管理,實現數據的自動收集、整理購靜、清洗、轉換和存儲。
數據存儲計算層:
由大數據平台提供功能(néng)支持,包括實時(shí)數據存儲化少組件(HBase)、分布式數據倉庫樹什組件(Hive)、數據處理計算組件(批處理、内存計算、流式計算和查詢計算綠聽)、分布式資源調度組件(YARN)、分布式文件系統上鄉(HDFS)、分布式數據庫和平台管理等7大部分組成(ché靜子ng)。
數據服務層
數據服務層為大數據平台提供統一對(duì)外的數據訪問綠間服·務,訪問形式包括SDK、ODBC/JDBC、CLI、HQL、CQL、W年月ebServices等。
前端應用層
對(duì)應關鍵指标、主題分析進(jìn)行展現綠黃,用以將(jiāng)所有運營生産管理、運營調度管理、客流分析、為拿線路分析等相關數據建立關聯分析,用于企答師業決策和高層彙報的信息,并將(jiāng)信息分析層發(fā)現的問題、預測從畫結果、告警信息進(jìn)行展現。前端間北訪問層需支持PC終端、大屏終端、移動終得大端的顯示。
在本方案中,數據的采集、集成(ché北草ng)、計算、存儲作為難點和重點,睿至大數據通過(guò)如下技術逐城短一解決:
1.數據采集
公交大數據平台的數據來源除了傳統的又如數據中心、數據倉庫之外,更多的數據是來自開雨于之前無法有效處理的各類文件,窗多 包括文檔、空間地理信息技術、視頻監控讀資、三維模型等方面(miàn)文件數據,因此實現非機構化數據采集尤為重要。
2.數據集成(chéng)
使用hadoop生态的分布式海量存儲技術替代笑黃當前的關系型數據庫,為了保障數據能木數(néng)在關系型數據庫和分布式存儲之間無縫傳輸,又保障大規模數據的理明傳輸與流轉效率,不能(néng)影響業務系統正常運行,可利用關系數據庫與分布式輛分存儲同步技術(Sqoop),實現不同銀拍存儲機制下的數據雙向(xiàng)同步
3.數據計算
如何接入實時(shí)數據,實現在線計算
4.數據存儲
梳理業務需求,將(jiāng)數據指标化站費,建立業務指标數據倉庫;使用Hadoop分布式存儲平台,足夠支撐安全的PB級以畫討上規模數據在線存儲,存儲結構化數據、非結構化數據、半結構化數訊喝據等。
通過(guò)本方案的成(ch紙地éng)功實施,就(jiù)北京公交集團的2萬船家餘輛公交車輛來說(shuō),就(jiù)可以通過(guò)包括車輛站讀進(jìn)站中、出站中、運行中、停靠站、故障道請信号五種(zhǒng)類别采集的公交車輛的GPS數據(以老人近乎實時(shí)的方式采集并回傳),了解到車輛的實時(shí飛廠)位置信息。
我們通過(guò)基于大數據和AI技術,融合多源數據照森,圍繞人、車、線、站進(jìn)行數據分析,挖掘數據内在價值,實現客流精準把握吧話,運力高效匹配,線網合理布局;通過(南西guò)分析乘客出行數據,深入了解居民交通需求,掌握居民出行特征與規律,從而提高得供針對(duì)性的交通供給,為居民提員請供便捷、可靠、安全、舒适的公交出行體驗。
除此之外,平台通過(guò)删減低效班次和線路,節能(néng)減排,提高公家能交出行吸引力,為城市治堵做貢獻;實時(s朋機hí)掌握線路的運營數據,為企業精細化管理提供數據支撐;分析運力從妹和客運量的匹配度,分析線路的客流分擔風路情況,合理删減低效班次和線路,降低企業運輛鐘營成(chéng)本。
在該方案中結合大數據技術、AI算法和行業模型,同時(shí)積玩玩累了多個行業數據分析模型算法,包括快長基于機器學(xué)習的客流OD生成(chéng)算法、基于機器學(xué就個)習的特征提取和影響因子權重模型、基于嗎月機器學(xué)習的特征提取和影拍湖響因子權重模型、基于多種(zhǒng)算法模型又遠結合的短時(shí)客流預測、公交數據融合處理和深度坐書加工、基于實時(shí)公交GPS和曆史規律的公交精準到站預測服務朋歌,這(zhè)些模型算法在行業内處于領先地位。&內拍nbsp;
睿至大數據從目前公共交通行業最為關心的問題入手,為公共交通運營管理機構的信藍外息獲取、全景展現、實時(shí)優化和實際決策提供了有力的、創不算新的支撐。