
上個月,歐盟委員會于2020年2月19日發(fā)布歐盟數據戰(zhàn)略,積極推進數字化轉型工作,打造歐盟單一數據市場,目的是強化技術主權,提升企業(yè)競爭力。
2020年3月,中共中央政治局常務委員會召開會議提出,加快5G網絡、數據中心等新型基礎設施建設進度。與傳統(tǒng)基建相比,新型基礎設施建設更能體現(xiàn)數字經濟特征,能夠更好推動中國經濟轉型升級。
如圖1,根據國家統(tǒng)計局數據,從2015年到2019年,全國居民人均可支配收入持續(xù)增加,2019年全年全國居民人均可支配收入30733元,扣除價格因素,實際增長5.8%。

圖1 2015年到2019年全國居民人均可支配收入持續(xù)增長
(來源,國家統(tǒng)計局官網)
消費者收入一方面在增加,一方面更追求個性化。在政策的大背景下,隨著移動互聯(lián)網的普及,5G的加快落地,對于企業(yè),做好數字化轉型,滿足消費者千人千面的需求是必然的選擇。
此外,還有一個趨勢就是越來越多的企業(yè)利用數字化技術,開展線上業(yè)務,比如在疫情期間,有房地產企業(yè)開始在線上賣房。
數據是資產已經是共識,我們的衣食住行不斷地產生數據,依托這些數據,使不少互聯(lián)網企業(yè)發(fā)展壯大。同樣的,在企業(yè)的日常運營中也在不斷地產生數據,如果能利用好這些數據,將進一步的提升企業(yè)競爭力。
在企業(yè)普遍開展數字化轉型的大潮之下,每家企業(yè)應明確自己的數據戰(zhàn)略,為數字化轉型打好基礎。
數據戰(zhàn)略包括數據采集、存儲、分析、消費。國際數據公司(IDC)和數據存儲公司希捷開展的一項研究發(fā)現(xiàn),2025年,全世界產生的新數據將從2018年的33ZB增至175ZB,中國每年將以超過全球平均值3%的速度產生并復制數據。據該研究報告,2018年中國約產生7.6ZB(1ZB約相當于1萬億GB)的數據,到2025年該數字將增至48.6ZB。與此同時,美國2018年約產生6.9ZB數據,并將在2025年增至30.6ZB。
二、企業(yè)用好數據,面臨四個挑戰(zhàn)
企業(yè)如何用好數據,面臨以下四個挑戰(zhàn)
1. 企業(yè)內部存在數據豎井,數據采集困難
企業(yè)內部的數據,往往存在數據豎井,格式不一致的問題。企業(yè)內部的數據,通常是按部門,按數據線保存。不同歷史時期,采用的數據庫不一樣,導致數據格式也不一致。要將數據統(tǒng)一采集存儲,需要打破部門壁壘,兼容各種數據格式。
2. 數據增速越來越大,數據存儲面臨挑戰(zhàn)
如前文所述,隨著新技術的采用,隨著信息化的深入,產生的數據越來越多,數據量飛速增加,大量的數據如何存儲成為一門技術活:如何能存儲海量的數據,讓數據根據冷熱分層,讓數據存儲性價比更高成為挑戰(zhàn)。
3. 海量的數據分析需要專業(yè)的能力
數據分析越來越復雜,甚至成為一個生態(tài)系統(tǒng),對于一個企業(yè)來說,要做數據分析,往往需要一個團隊,需要購買商業(yè)產品,需要服務商的支持。如圖2,從mattturk.com網站總結的數據和AI生態(tài)藍圖可以看出數據分析的復雜性。

圖2 數據和AI生態(tài)藍圖
。▉碓,mattturk.com網站)
4. 安全合規(guī)方面面臨挑戰(zhàn)
我國于2017年6月1日正式實施《中華人民共和國網絡安全法》。在數據安全也有諸多規(guī)定。明確規(guī)定了網絡運營者不得泄露、篡改、毀損其收集的個人信息;未經被收集者同意,不得向他人提供個人信息。
歐盟于2018年5月25日正式實施了《通用數據保護條例》 (General Data Protection Regulation,簡稱GDPR),GDPR是一項保護歐盟公民個人隱私和數據的法律,其適用范圍不僅包括歐盟成員國境內企業(yè)的個人數據、也包括歐盟境外企業(yè)處理歐盟公民的個人數據。
2019年5月28日國家互聯(lián)網信息辦公室發(fā)布《數據安全管理辦法》(征求意見稿)。征求意見稿中包括數據收集、數據處理使用和數據安全監(jiān)督管理等內容。
這四個方面的挑戰(zhàn),中小企業(yè)面臨的挑戰(zhàn)更大,大型企業(yè)面臨的是效率問題,中小企業(yè)則面臨的是數據戰(zhàn)略如何落地的問題,而AWS推出的數據湖服務,可以很好的解決這四個挑戰(zhàn)。
三、AWS數據湖,通過組合拳解決數據難題

圖3 AWS的數據湖服務架構
(圖來源,AWS公開資料)
如圖3,AWS的數據湖實際上由一系列產品和服務構成:
- Amazon RDS:云托管的關系型數據庫,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六種常用的關系型數據庫。
- Amazon Redshift:數據倉庫,性能強大、使用簡單,全托管的數據倉庫服務,支持大規(guī)模并行處理, 支持從GB到TB規(guī)模數據的擴展。
- Amazon EMR:大數據處理,在AWS上運行Spark, Hadoop, Hive, Presto, Hbase等大數據分析,高度可擴展的分析和機器學習服務。
- Amazon Kinesis:實時數據,實時收集、處理并分析視頻和流數據。
- Amazon Athena:數據交互查詢,使用標準SQL對Amazon S3上的數據做交互查詢,無需基礎設施及配置,無需另外加載數據。
- AWS Glue:ETL 和數據目錄服務,無服務器架構的數據目錄和ETL服務。AWS Glue 使用能識別常用數據格式和數據類型的預構建分類器(classifiers)抓取數據源并構建數據目錄,包括 CSV、Apache Parquet、JSON 等。
- AWS Lake Formation:可以自動化構建數據湖。
通過以上產品和服務的組合,AWS的數據湖有以下特點:
1. 可以快速的構建數據湖
AWS Lake Formation 可以自動化構建數據湖,可以在數天內構建數據湖,而傳統(tǒng)方式需要一個經驗豐富的團隊,花費數個月的時間。
2. 兼容多種數據格式,支持分級存儲
AWS數據湖支持關系型和非關系型數據庫,Amazon S3 提供五個存儲類別和自動數據生命周期管理。Amazon Redshift 的速度比其他云數據倉庫要快3倍。
3. 支持不同數據庫連接和數據交互查詢及
通過AWS Glue和Amazon Athena服務,可以實現(xiàn)不同數據庫連接及數據湖數據交互查詢。
AWS Glue最主要有兩個功能,一個是ETL,ETL是Extract、Transform和Load,即數據的抽取、轉換和加載,從數據庫提取到數據倉庫使用的都是ETL。另外一個功能是數據目錄服務的功能,數據都存在數據湖里面,要對數據打標簽,做分類工作,AWS Glue可以像爬蟲一樣對數據湖里的海量數據自動爬取,生成數據目錄的功能。
Amazon Athena支持使用SQL直接對S3數據交互式查詢,使快速存起來的海量的數據可以像傳統(tǒng)的使用SQL語言一樣,使用標準的數據庫查詢的語言,方便了技術人員的使用。
4. 支持多種數據分析方式

圖4 AWS數據分析組件
。▓D來源,AWS公開資料)
如圖4,AWS支持多種數據分析方式,數據通過各種數據庫采集,進入數據湖,然后進行分析和展現(xiàn)。
數據分析Amazon EMR是重點,Amazon EMR 提供在云中運行 Apache Spark 和 Apache HIVE 工作負載。EMR 與 AWS 的其余部分進行深度集成便于節(jié)省成本的功能,如 EC2 Spot 實例,從而將成本縮減高達 90%。
另外,AWS數據分析支持 SQL、R、Scala、Jupyter 和 Python語言,所有的服務均支持使用開放 API 以開放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用專有(適用于數據倉庫的 Redshift)和開放引擎(例如 Spark、Hive)訪問單一對象存儲 (S3) 中存儲的數據。
更進一步,AWS數據湖可以和機器學習和人工智能服務Amazon SageMaker結合,把數據用來做機器學習、人工智能的數據分析,做更多的自動的預測性的分析。
5. 安全
AWS 提供了一套超越標準安全功能的工具,例如對安全策略積極監(jiān)控和統(tǒng)一管理的加密和訪問控制。例如,Amazon Macie 可幫助監(jiān)控數據湖,以確保不會意外地暴露憑據或個人身份信息 (PII)。Amazon Inspector 可幫助實施最佳實踐和識別可能被利用的配置問題,利用 AWS Lake Formation,可以在所有分析服務中對數據湖中的數據進行一致性的訪問控制。

圖5 ,AWS數據湖平臺功能
。▓D來源,AWS公開資料)
AWS數據湖是成熟的解決方案,如圖5所示,可以提供多種功能,實現(xiàn)不同的業(yè)務價值。AWS數據湖已經有許多用戶在使用,像娛樂業(yè)的二十一世紀福克斯電影公司。還有包括一些金融的案例,比如FINRA,是一個美國的金融監(jiān)管機構,每天有超過1500億的事件、20PB的數量,它把所有金融的交易的信息都整合在一起,可以處理所有的內部交易。還有納斯達克交易所,使用數據湖處理每天500億條的付款,使用數據湖把上市時間縮短了1/3。
四、總結:AWS數據湖服務是數據戰(zhàn)略落地的強支點
疫情期間的健康碼經過精準的數據分析,極大的方便了大家的出行,也讓大家進一步認識了數據分析的便利性。當前,從政府到企業(yè),都普遍認識到了數據的重要性。數據要發(fā)揮作用,必須經過多維度的分析。今后五年,企業(yè)必須擁有清晰正確的數據戰(zhàn)略并高效的落地,數據戰(zhàn)略是通往卓越的必經之路,企業(yè)要么因為數據戰(zhàn)略的高效落地而卓越,要么死亡。
AWS的數據湖服務,能夠幫助企業(yè)解決數據的采集、存儲、分析、消費等全周期的問題,為企業(yè)搭建了良好的數據平臺,是企業(yè)數據戰(zhàn)略落地的強支點,能夠有力推動企業(yè)數字化轉型,是企業(yè)搶占先機,贏得競爭優(yōu)勢的利器。