訂閱
糾錯
加入自媒體

SparkSQL對于批流支持的特性及批流一體化支持框架的難點

2020-12-24 12:10
EAWorld
關(guān)注

二、基于SparkSQL-Flow的

分析框架

何為 SparkSQL-Flow

1.一個由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型;

2.一個可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架,提供了靈活的可擴展 API;

3.一個提供了 對文件,數(shù)據(jù)庫,NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式;

4.基于 SQL 的開發(fā)語言和 XML 的模板配置,支持 SparkSQL UDF 的擴展管理;

5.支持基于 Spark Standlone,Yarn,Mesos 資源管理平臺;

6.支持多種平臺Kerberos認證(開源、華為、星環(huán))等平臺統(tǒng)一認證;

SparkSQL Flow XML 概覽

用戶只需要定義 Source,Transformer,Target 幾個核心組件:

1.Source 數(shù)據(jù)源:支持Data、DB、File、NoSQL、MQ 等眾多源;

2.Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作,一般為SQL;

3.Target 為輸出目標,支持show、DB、File、NoSQL、MQ 等眾多目標,支持類型基本和源相同;

4.用戶可以在Properties定義一些變量,作為Source/Transformer/Target 的宏替換;

SparkSQL Flow 適合的場景

1.批量 ETL;

2.非實時分析服務(wù);

3.流式 ETL;

支持從多種獲得數(shù)據(jù)源:

1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile

2.大數(shù)據(jù):Hive、HDFS

3.支持RDBMS數(shù)據(jù)庫:PostgreSQL、 MySQL、Oracle

4.支持 NOSQL 數(shù)據(jù)庫:Hbase、MongoDB、Redis

5.Streaming:JMS、AMQP、Kafka、Socket

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號