作者:探碼科技, 原文鏈接: http://nbbskj.com/web-bigdata/556
國民消費水平的提高,讓選擇飛機為出行工具的人越來越多,加上近年出境游市場高度景氣,旅行社和大眾航空業務增長迅速。據《 2019年8月中國民航市場簡報 》統計,2019年8月,國內機場出港直飛航班42.86萬班次,同比增加6.38%,其中國內航班38.56萬班次,同比增加6.53%,國際/地區航班4.3萬班次,同比增加5.02%,國內航班增速快于國際/地區航班。相比2018年8月,國內機場新開航線1627條,其中國內航線1350條,國際/地區航線277條。
針對發展迅速的航空業務,機票信息大數據幫助飛行旅客提供航班價格、航班狀態、延誤信息、航班點評等專業性功能,為商旅用戶提供貼心便捷的旅行服務,為機場、空管提供ACDM,保障航班正常。
機票信息采集需要包含日期、航空公司、航班號、經濟艙價格、經濟艙折扣、公務艙價格、公務艙折扣、稅費、附加費、機 型、起飛城市三字碼、到達城市三字碼、起飛時間等所有相關信息。
以下是票務網頁的Response preview示例,也就是在網頁中需要爬蟲的字段:
據勁旅智庫統計,用戶預定機票最常使用的APP是攜程旅行,其次是去哪兒旅行、途牛旅游、阿里旅行、同程旅游、藝龍旅行和驢媽媽旅游6家OTA企業的APP。在航空公司直銷戰略下,移動端表現較好,中國國航、南方航空、海南航空分別位于第八名到第十一名,常使用的用戶分別為9.9%、8.2%和6.1%。
用戶預訂機票常使用的APP:
??????? ?
探碼科技基于云計算研發的探碼Web大數據采集系統——利用眾多的云計算服務器協同工作,能快速采集大量數據。
探碼通過網絡爬蟲對相關網站進行全方位實時的匯總采集。針對票務網站數據,對相關數據字段進行全自動化采集,借助網絡爬蟲或網站API,從網頁獲取機票信息數據,將其統一儲存為本地數據。網絡數據采集平臺在獲得所需的數據并將其分解為有用的組件之后,通過可擴展的方法來將所有提取和解析的數據存儲在數據庫或集群中,然后創建一個允許用戶可及時查找相關數據集或提取的功能。
整體框架如圖:
第一部分:所有航班的詳情,采集字段包括航空公司、起飛日期 、起飛機場 、到達機場 、航班號、 使用規定、對應艙位、? 對應價格 、剩余座位。
第二部分:最低價格的航班詳情,采集字段包括起飛城市三字碼、到達城市三字碼、 航空公司、起飛日期、起飛機場、 到達機場、 航班號、 使用規定、最低價格、 最低價格艙位 、艙價格、 最低價剩余座位。
采集目標:? OTA網站機票價格、移動端機票價格,可采集指定網站的數據,按客戶要求進行處理,輸出所需數據格式。案例: 去哪兒 、攜程、途牛以及各大航空公司。
?