天堂av色综合久久天堂小说,国产精品久久久久精品日日,在线资源丰富!

SparkSQL對于批流支持的特性及批流一體化支持框架的難點

2020-12-24 12:10

二、基于SparkSQL－Flow的

分析框架

何為 SparkSQL－Flow

1．一個由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型；

2．一個可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架，提供了靈活的可擴展 API；

3．一個提供了對文件，數(shù)據(jù)庫，NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式；

4．基于 SQL 的開發(fā)語言和 XML 的模板配置，支持 SparkSQL UDF 的擴展管理；

5．支持基于 Spark Standlone，Yarn，Mesos 資源管理平臺；

6．支持多種平臺Kerberos認證（開源、華為、星環(huán)）等平臺統(tǒng)一認證；

SparkSQL Flow XML 概覽

用戶只需要定義 Source，Transformer，Target 幾個核心組件：

1．Source 數(shù)據(jù)源：支持Data、DB、File、NoSQL、MQ 等眾多源；

2．Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作，一般為SQL；

3．Target 為輸出目標，支持show、DB、File、NoSQL、MQ 等眾多目標，支持類型基本和源相同；

4．用戶可以在Properties定義一些變量，作為Source／Transformer／Target 的宏替換；

SparkSQL Flow 適合的場景

1．批量 ETL；

2．非實時分析服務(wù)；

3．流式 ETL；

支持從多種獲得數(shù)據(jù)源：

1．支持文件：JSON、TextFile（CSV）、ParquetFile、AvroFile

2．大數(shù)據(jù)：Hive、HDFS

3．支持RDBMS數(shù)據(jù)庫：PostgreSQL、 MySQL、Oracle

4．支持 NOSQL 數(shù)據(jù)庫：Hbase、MongoDB、Redis

5．Streaming：JMS、AMQP、Kafka、Socket

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞