国产欧美另类久久久精品不戴乳罩,妈妈的朋友1在线观看,国产又粗又猛又大爽视频

一文詳解HiveSQL執(zhí)行計劃

2021-06-21 10:43

在第二條sql語句前加上 explain，得到如下結(jié)果

hive （default）＞ explain select a．id，b．user＿name from（select ＊ from test1 where id＞2 ） a join test2 b on a．id＝b．id；
OK
Explain
STAGE DEPENDENCIES：
Stage－4 is a root stage
Stage－3 depends on stages： Stage－4
Stage－0 depends on stages： Stage－3
STAGE PLANS：
Stage： Stage－4
Map Reduce Local Work
Alias －＞ Map Local Tables：
＄hdt＄＿0：test1
Fetch Operator
limit：－1
Alias －＞ Map Local Operator Tree：
＄hdt＄＿0：test1
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
Stage： Stage－3
Map Reduce
Map Operator Tree：
TableScan
alias： b
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate：（id ＞ 2）（type： boolean）
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 25 Basic stats： COMPLETE Column stats： NONE
Map Join Operator
condition map：
Inner Join 0 to 1
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
outputColumnNames：＿col0，＿col2
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions：＿col0 （type： int），＿col2 （type： string）
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 2 Data size： 27 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Local Work：
Map Reduce Local Work
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

大家有什么發(fā)現(xiàn)，除了表別名不一樣，其他的執(zhí)行計劃完全一樣，都是先進行 where 條件過濾，在進行 join 條件關(guān)聯(lián)。說明 hive 底層會自動幫我們進行優(yōu)化，所以這兩條sql語句執(zhí)行效率是一樣的。

以上僅列舉了3個我們生產(chǎn)中既熟悉又有點迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數(shù)據(jù)傾斜、hive 調(diào)優(yōu)等，小伙伴們可以自行嘗試。

3． explain dependency的用法

explain dependency用于描述一段SQL需要的數(shù)據(jù)來源，輸出是一個json格式的數(shù)據(jù)，里面包含以下兩個部分的內(nèi)容：

input＿partitions：描述一段SQL依賴的數(shù)據(jù)來源表分區(qū)，里面存儲的是分區(qū)名的列表，如果整段SQL包含的所有表都是非分區(qū)表，則顯示為空。

input＿tables：描述一段SQL依賴的數(shù)據(jù)來源表，里面存儲的是Hive表名的列表。

使用explain dependency查看SQL查詢非分區(qū)普通表，在 hive cli 中輸入以下命令：

explain dependency select s＿age，count（1） num from student＿orc；

得到結(jié)果：

｛＂input＿partitions＂：［］，＂input＿tables＂：［｛＂tablename＂：＂default＠student＿tb ＿orc＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

使用explain dependency查看SQL查詢分區(qū)表，在 hive cli 中輸入以下命令：

explain dependency select s＿age，count（1） num from student＿orc＿partition；

得到結(jié)果：

｛＂input＿partitions＂：［｛＂partitionName＂：＂default＠student＿orc＿partition＠ part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝3＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝4＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝5＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝6＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝7＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝8＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］

explain dependency的使用場景有兩個：

場景一：快速排除。快速排除因為讀取不到相應(yīng)分區(qū)的數(shù)據(jù)而導致任務(wù)數(shù)據(jù)輸出異常。例如，在一個以天分區(qū)的任務(wù)中，上游任務(wù)因為生產(chǎn)過程不可控因素出現(xiàn)異�；蛘呖张�，導致下游任務(wù)引發(fā)異常。通過這種方式，可以快速查看SQL讀取的分區(qū)是否出現(xiàn)異常。

場景二：理清表的輸入，幫助理解程序的運行，特別是有助于理解有多重子查詢，多表連接的依賴輸入。

下面通過兩個案例來看explain dependency的實際運用：

案例一：識別看似等價的代碼

對于剛接觸SQL的程序員，很容易將

select ＊ from a inner join b on a．no＝b．no and a．f＞1 and a．f＜3；

等價于

select ＊ from a inner join b on a．no＝b．no where a．f＞1 and a．f＜3；

我們可以通過案例來查看下它們的區(qū)別：

代碼1：

select
a．s＿no
from student＿orc＿partition a
inner join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and a．part＞＝1 and a．part＜＝2；

代碼2：

select
a．s＿no
from student＿orc＿partition a
inner join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part
where a．part＞＝1 and a．part＜＝2；

我們看下上述兩段代碼explain dependency的輸出結(jié)果：

代碼1的explain dependency結(jié)果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

代碼2的explain dependency結(jié)果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝2＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

通過上面的輸出結(jié)果可以看到，其實上述的兩個SQL并不等價，代碼1在內(nèi)連接（inner join）中的連接條件（on）中加入非等值的過濾條件后，并沒有將內(nèi)連接的左右兩個表按照過濾條件進行過濾，內(nèi)連接在執(zhí)行時會多讀取part＝0的分區(qū)數(shù)據(jù)。而在代碼2中，會過濾掉不符合條件的分區(qū)。

案例二：識別SQL讀取數(shù)據(jù)范圍的差別

代碼1：

explain dependency
select
a．s＿no
from student＿orc＿partition a
left join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and b．part＞＝1 and b．part＜＝2；

代碼2：

explain dependency
select
a．s＿no
from student＿orc＿partition a
left join
student＿orc＿partition＿only b
on a．s＿no＝b．s＿no and a．part＝b．part and a．part＞＝1 and a．part＜＝2；

以上兩個代碼的數(shù)據(jù)讀取范圍是一樣的嗎？答案是不一樣，我們通過explain dependency來看下：

代碼1的explain dependency結(jié)果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝， …中間省略7個分區(qū)
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝2＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

代碼2的explain dependency結(jié)果：

｛＂input＿partitions＂：
［｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝1＂｝， …中間省略7個分區(qū)
｛＂partitionName＂：＂default＠student＿orc＿partition＠part＝9＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝0＂｝，
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝1＂｝， …中間省略7個分區(qū)
｛＂partitionName＂：＂default＠student＿orc＿partition＿only＠part＝9＂｝］，
＂input＿tables＂：［｛＂tablename＂：＂default＠student＿orc＿partition＂，＂tabletype＂：＂MANAGED＿TABLE＂｝，｛＂tablename＂：＂default＠student＿orc＿partition＿only＂，＂tabletype＂：＂MANAGED＿TABLE＂｝］｝

可以看到，對左外連接在連接條件中加入非等值過濾的條件，如果過濾條件是作用于右表（b表）有起到過濾的效果，則右表只要掃描兩個分區(qū)即可，但是左表（a表）會進行全表掃描。如果過濾條件是針對左表，則完全沒有起到過濾的作用，那么兩個表將進行全表掃描。這時的情況就如同全外連接一樣都需要對兩個數(shù)據(jù)進行全表掃描。

在使用過程中，容易認為代碼片段2可以像代碼片段1一樣進行數(shù)據(jù)過濾，通過查看explain dependency的輸出結(jié)果，可以知道不是如此。

4． explain authorization 的用法

通過explain authorization可以知道當前SQL訪問的數(shù)據(jù)來源（INPUTS）和數(shù)據(jù)輸出（OUTPUTS），以及當前Hive的訪問用戶（CURRENT＿USER）和操作（OPERATION）。

在 hive cli 中輸入以下命令：

explain authorization
select variance（s＿score） from student＿tb＿orc；

結(jié)果如下：

INPUTS：
default＠student＿tb＿orc
OUTPUTS：
hdfs：／／node01：8020／tmp／hive／hdfs／cbf182a5－8258－4157－9194－ 90f1475a3ed5／－mr－10000
CURRENT＿USER：
hdfs
OPERATION：
QUERY
AUTHORIZATION＿FAILURES：
No privilege ＇Select＇ found for inputs ｛ database：default， table：student＿ tb＿orc， columnName：s＿score｝

從上面的信息可知：

上面案例的數(shù)據(jù)來源是defalut數(shù)據(jù)庫中的 student＿tb＿orc表；

數(shù)據(jù)的輸出路徑是hdfs：／／node01：8020／tmp／hive／hdfs／cbf182a5－8258－4157－9194－90f1475a3ed5／－mr－10000；

當前的操作用戶是hdfs，操作是查詢；

觀察上面的信息我們還會看到AUTHORIZATION＿FAILURES信息，提示對當前的輸入沒有查詢權(quán)限，但如果運行上面的SQL的話也能夠正常運行。為什么會出現(xiàn)這種情況？Hive在默認不配置權(quán)限管理的情況下不進行權(quán)限驗證，所有的用戶在Hive里面都是超級管理員，即使不對特定的用戶進行賦權(quán)，也能夠正常查詢。

最后

通過上面對explain的介紹，可以發(fā)現(xiàn)explain中有很多值得我們?nèi)パ芯康膬?nèi)容，讀懂 explain 的執(zhí)行計劃有利于我們優(yōu)化Hive SQL，同時也能提升我們對SQL的掌控力。

<上一頁 1 2 3