一区二区视频_久久久精品国产_一级在线观看_欧美福利_国产精品免费看_国产大片在线观看

當(dāng)前位置: 首頁 / 技術(shù)干貨 / 正文
好程序員大數(shù)據(jù)培訓(xùn)分享Hive基礎(chǔ)知識講解

2020-08-05

大數(shù)據(jù)培訓(xùn) Hive

  今天好程序員大數(shù)據(jù)培訓(xùn)老師給大家技術(shù)介紹一下關(guān)于Hive的一些基礎(chǔ)知識,首先Hive作為數(shù)據(jù)倉庫,起源于Facebook,工作原理大致可以解釋為:對用戶輸入的HQL語句進(jìn)行解釋,編譯,優(yōu)化并執(zhí)行生成查詢計(jì)劃,并轉(zhuǎn)化為MapReduce任務(wù)進(jìn)而執(zhí)行:解釋器——編譯器——優(yōu)化器——執(zhí)行器。

好程序員

  

大數(shù)據(jù)1

 

  Hive的元數(shù)據(jù)一般存儲在關(guān)系型數(shù)據(jù)庫中,如MySql;

  底層存儲用到的是HDFS分布式存儲系統(tǒng)。它的優(yōu)點(diǎn):1.?簡單易上手:提供了類SQL查詢語言HQL;2.可擴(kuò)展:為超大數(shù)據(jù)集設(shè)計(jì)了計(jì)算/擴(kuò)展能力(MR作為計(jì)算引擎,HDFS作為存儲系統(tǒng));3.提供統(tǒng)一的元數(shù)據(jù)管理;4.Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實(shí)現(xiàn)自己的函數(shù):繼承hive的UDF類,重寫evaluate方法;5.容錯(cuò):良好的容錯(cuò)性,節(jié)點(diǎn)出現(xiàn)問題SQL仍可完成執(zhí)行;

  缺點(diǎn):1.Hive的HQL表達(dá)能力有限;2.效率比較低,自動生成的Mapreduce作業(yè),通常情況下不夠智能化,且調(diào)優(yōu)比較困難;

  Hive用戶接口

  1)HiveCLI(HiveCommandLine,Hive命令行),客戶端可以直接在命令行模式下進(jìn)行操作

  2)HWI(HiveWebInterface,HiveWeb接口),Hive提供了更直觀的Web界面

  3)hiveserver,Hive提供了Thrift服務(wù),Thrift客戶端目前支持C++/Java/PHP/Python/Ruby

  Hive常用文件格式:

  Textfile:默認(rèn)格式,數(shù)據(jù)不做壓縮,磁盤開銷大,數(shù)據(jù)解析開銷大;

  SEQUENCEFILE:SequenceFile是HadoopAPI提供的一種二進(jìn)制文件支持,其具有使用方便、可分割、可壓縮的特點(diǎn);

  rcfile:RCFILE是一種行列存儲相結(jié)合的存儲方式。首先,其將數(shù)據(jù)按行分塊,保證同一個(gè)record在一個(gè)塊上,避免讀一個(gè)記錄需要讀取多個(gè)block。其次,塊數(shù)據(jù)列式存儲,有利于數(shù)據(jù)壓縮和快速的列存取;

  parquet:ApacheParquet是Hadoop生態(tài)圈中一種新型列式存儲格式,它可以兼容Hadoop生態(tài)圈中大多數(shù)計(jì)算框架;

  Hive數(shù)據(jù)導(dǎo)入導(dǎo)出

  Hive表中的數(shù)據(jù),同時(shí)支持從本地?cái)?shù)據(jù)導(dǎo)入、從其他表導(dǎo)入數(shù)據(jù)、導(dǎo)出數(shù)據(jù)到本地文件系統(tǒng)、導(dǎo)出數(shù)據(jù)到HDFS中

  Hive基本語句

  Hive建表語句基本跟關(guān)系型數(shù)據(jù)庫建表語句相同,區(qū)別在于語句尾端指定了列分隔符:

  ROWFORMATDELIMITEDFIELDSTERMINATEDBY‘,’

  指定了列分隔符為“,”;

  對于分區(qū)表,會有分區(qū)字段的說明:

  PARTITIONEDBY(countrySTRING,stateSTRING)

  用“country“、”state”兩個(gè)字段分區(qū);

  以及指定存儲文件的格式:

  STOREDASTEXTFILE。

  關(guān)于內(nèi)連接、外連接和半連接:

  幾種連接區(qū)別簡單概括為:內(nèi)連接只顯示了倆張表都存在的數(shù)據(jù),而外連接則是顯示出所有的數(shù)據(jù),其中左連接是左外邊的表輸出完整數(shù)據(jù)。右外連接是右邊的表輸出完整數(shù)據(jù),全外連接就是兩張表的所有行全部輸出。做半連接用來補(bǔ)充Hive相對于MySQL等語句缺失的in/exists這樣的子句,就用leftjoin代替,和leftjoin的區(qū)別在于右邊的表數(shù)據(jù)不會加載進(jìn)結(jié)果;

  orderby和sortby:

  ORDERBY會對查詢結(jié)果集執(zhí)行一個(gè)全局排序,所有的數(shù)據(jù)都通過一個(gè)reducer進(jìn)行處理;SORTBY,其只會在每個(gè)reducer中對數(shù)據(jù)進(jìn)行排序,也就是執(zhí)行一個(gè)局部排序過程,生產(chǎn)中可以和DISTRIBUTEBY一起用,實(shí)現(xiàn)分區(qū)并排序。

好程序員公眾號

  • · 剖析行業(yè)發(fā)展趨勢
  • · 匯聚企業(yè)項(xiàng)目源碼

好程序員開班動態(tài)

More+
  • HTML5大前端 <高端班>

    開班時(shí)間:2021-04-12(深圳)

    開班盛況

    開班時(shí)間:2021-05-17(北京)

    開班盛況
  • 大數(shù)據(jù)+人工智能 <高端班>

    開班時(shí)間:2021-03-22(杭州)

    開班盛況

    開班時(shí)間:2021-04-26(北京)

    開班盛況
  • JavaEE分布式開發(fā) <高端班>

    開班時(shí)間:2021-05-10(北京)

    開班盛況

    開班時(shí)間:2021-02-22(北京)

    開班盛況
  • Python人工智能+數(shù)據(jù)分析 <高端班>

    開班時(shí)間:2021-07-12(北京)

    預(yù)約報(bào)名

    開班時(shí)間:2020-09-21(上海)

    開班盛況
  • 云計(jì)算開發(fā) <高端班>

    開班時(shí)間:2021-07-12(北京)

    預(yù)約報(bào)名

    開班時(shí)間:2019-07-22(北京)

    開班盛況
IT培訓(xùn)IT培訓(xùn)
在線咨詢
IT培訓(xùn)IT培訓(xùn)
試聽
IT培訓(xùn)IT培訓(xùn)
入學(xué)教程
IT培訓(xùn)IT培訓(xùn)
立即報(bào)名
IT培訓(xùn)

Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號-5 京公網(wǎng)安備 11010802035720號

主站蜘蛛池模板: 中文一区 | 乱轮一区 | 精品视频一区二区在线 | 夜夜嗨av涩爱av牛牛影视 | 久久久国产一区二区三区 | 视频一区二区三区中文字幕 | 久久久精品日本 | 亚洲不卡免费视频 | 久草在线在线精品观看 | 国产男女免费完整视频 | 日韩欧美亚洲 | 日韩不卡在线 | 草久网| 一级黄网 | 天天精品在线 | 亚洲福利影院 | 国产日韩欧美高清 | 欧美1区2区3区 | 一区二区三区四区 | 欧美同性大尺度腐剧 | 国产日韩精品在线 | 欧美日韩高清在线观看 | 日韩电影三级 | 国产精品影院在线观看 | 国产高清不卡一区二区三区 | 成人免费视频在线观看 | 日本一区视频在线观看 | 色呦呦网站| 狠狠综合久久av一区二区老牛 | 色呦呦视频在线观看 | 99精品视频在线 | 亚洲精品一区二区三区在线看 | 欧美a在线| 国内精品视频 | 蜜桃色网| 亚洲国产精品成人 | 伊人激情综合 | 久久久男人天堂 | 在线欧美色| 久久sese | 一级毛片免费网站 |