丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁 > 體育

關(guān)系型數(shù)據(jù)庫 大數(shù)據(jù)分析中使用關(guān)系型數(shù)據(jù)庫的關(guān)鍵點

大數(shù)據(jù)分析處理的原始數(shù)據(jù)有相當(dāng)一部分來自關(guān)系數(shù)據(jù)庫,處理結(jié)果也存儲在關(guān)系數(shù)據(jù)庫中。原因是超過99%的軟件系統(tǒng)使用傳統(tǒng)的關(guān)系數(shù)據(jù)庫,大家都很熟悉,也很容易使用。

在我們正式的大數(shù)據(jù)團(tuán)隊中,幾個倉庫(data warehouse Hive+HBase)的數(shù)據(jù)采集也來自于Oracle或者M(jìn)ySql。雖然處理后的統(tǒng)計結(jié)果和明細(xì)保存在Hive中,但定期推送至Oracle/MySql供前臺系統(tǒng)讀取顯示并生成各種報表。

在這種場景下,數(shù)據(jù)庫的讀寫性能尤為重要!

一、數(shù)據(jù)庫定位

有大神說,你給我足夠的數(shù)據(jù)庫硬件,一個GroupBy就能滿足各種統(tǒng)計分析場景。

沒錯,我們數(shù)百萬的金融級Oracle一體機(jī)證明了GroupBy可以很強(qiáng)大,也證明了它有一個上限,就是數(shù)據(jù)大了還是要趴下!

所以需要有設(shè)計原則和優(yōu)化技巧。

核心原理:數(shù)據(jù)庫只是數(shù)據(jù)存儲的載體,在大數(shù)據(jù)中很難使用它的計算能力!

有了這個原則,就意味著數(shù)據(jù)庫將被“純粹地”使用:

數(shù)據(jù)表獨立性很強(qiáng),大表間很少join(這讓我想起有同學(xué)在Hive里對兩張大表做笛卡爾乘積產(chǎn)生270T數(shù)據(jù))數(shù)據(jù)表很大,單表幾十億行很常見索引很少,一般按主鍵查單行或者按時間查一段 二、分區(qū)存儲

在這里,數(shù)據(jù)庫是存儲數(shù)據(jù)的倉庫,海量數(shù)據(jù)需要拆分存儲,不可能全部壓縮在一起。

根據(jù)業(yè)務(wù)不同,一般有兩種拆分方式:

單表分區(qū)。常見于Oracle,每月做一個分區(qū),數(shù)據(jù)連續(xù)方便業(yè)務(wù)處理,但要求單機(jī)性能強(qiáng)勁。分表分庫。常見于MySql,分個128張表乃至4096張表也都是很平常的事情,可以用很多性能較差的機(jī)器組建集群,但因數(shù)據(jù)不連續(xù)不便于業(yè)務(wù)處理。

具體的拆分方法由使用場景決定。

如果以后要提取整個數(shù)據(jù)進(jìn)行統(tǒng)計分析,比如原始數(shù)據(jù)和中間數(shù)據(jù),那么分區(qū)優(yōu)先。便于歷史數(shù)據(jù)的連續(xù)提取和每月刪除,對于海量數(shù)據(jù)刪除是痛苦的。子分區(qū)和分區(qū)內(nèi)索引也可以在分區(qū)內(nèi)建立。

如果用于業(yè)務(wù)數(shù)據(jù)或最終統(tǒng)計結(jié)果,則考慮在數(shù)據(jù)庫劃分后再劃分表,數(shù)據(jù)按照業(yè)務(wù)維度“統(tǒng)一”存儲在不同的表上。比如對單個數(shù)取CRC,然后對數(shù)據(jù)表個數(shù)取模。

有很多數(shù)據(jù),屬于時間序列數(shù)據(jù)的性質(zhì),或者日志類型,都是只插入,很少或者根本沒有Update,幾乎沒有Delete。

這類數(shù)據(jù)有一個關(guān)鍵時間字段來決定數(shù)據(jù)什么時候到達(dá),比如input date/CreateTime/UpdateTime,可以通過觸發(fā)器的方式填充當(dāng)前時間。

基于時間維度提取時間序列數(shù)據(jù)進(jìn)行分析時,必須保證所有數(shù)據(jù)都能按時間域升序找到,不會遺漏或重復(fù)搜索某些行。

第三,高效查詢

對于海量數(shù)據(jù)查詢,命中指數(shù)必須100%確定。code=xxx或updatetime >: =:start和updatetime<。:結(jié)束.

按主鍵查詢命中單行或少量數(shù)據(jù);

根據(jù)時間查詢,一定要合理選擇時間間隔(開始、結(jié)束),最好將查詢結(jié)果控制在10000~20000行左右。

比如考慮到高峰時段,我們一般以5秒的間隔進(jìn)行查詢,一般會得到10000 ~ 40000行。

使用數(shù)據(jù)時,可能會有很多查詢條件,但最重要的是時間間隔。

由于數(shù)據(jù)量大,DBMS本身的統(tǒng)計信息收集可能非常不及時,導(dǎo)致執(zhí)行計劃中選擇了錯誤的索引方案。在這種情況下,需要手動收集信息,甚至在查詢語句中強(qiáng)制指定索引。

第四,批量寫作

借助內(nèi)存計算,我們經(jīng)??梢栽诙虝r間內(nèi)計算出幾十萬甚至上百萬的數(shù)據(jù),這些數(shù)據(jù)需要寫入數(shù)據(jù)庫。

一般數(shù)據(jù)庫的Insert/Update性能只有3000 ~ 5000tps,很難在有索引負(fù)擔(dān)的情況下快速將數(shù)據(jù)寫入其中。

以甲骨文為例。它的OracleCommand有一個超級函數(shù)ArrayBindCount,可以為一個參數(shù)化的寫操作綁定多個組(例如,5000組/行)。

這種方法可以使其獲得最高的寫入性能,實際服務(wù)使用量可以達(dá)到30000tps左右。

MySql和SQLite都有自己獨特的批量寫功能,支持netcore。

SqlServer也有批量寫功能,但還不支持netcore。

MySql解決方案寫在另一篇文章里。

動詞 (verb的縮寫)總結(jié)

關(guān)系數(shù)據(jù)庫存儲大數(shù)據(jù)的關(guān)鍵點是:簡單存儲、分區(qū)和表劃分、高效索引和批量寫入!

原地址:https://www.cnblogs.com/nnhy/p/DbForBigData.html

1.《關(guān)系型數(shù)據(jù)庫 大數(shù)據(jù)分析中使用關(guān)系型數(shù)據(jù)庫的關(guān)鍵點》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《關(guān)系型數(shù)據(jù)庫 大數(shù)據(jù)分析中使用關(guān)系型數(shù)據(jù)庫的關(guān)鍵點》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/tiyu/796695.html

上一篇

恐龍之最 全球十大恐龍之最大盤點 最大的食肉恐龍竟是棘龍

下一篇

家庭出身有哪幾種 這3種家庭出身的學(xué)生,真的更容易上名校!你家孩子在其中嗎?

陳情令播出時間 陳情令什么時候播出 經(jīng)典小說魔道祖師改編網(wǎng)友超期待

  • 陳情令播出時間 陳情令什么時候播出 經(jīng)典小說魔道祖師改編網(wǎng)友超期待
  • 陳情令播出時間 陳情令什么時候播出 經(jīng)典小說魔道祖師改編網(wǎng)友超期待
  • 陳情令播出時間 陳情令什么時候播出 經(jīng)典小說魔道祖師改編網(wǎng)友超期待
胡必杰 從確診到出院歷經(jīng)一個多月,專家:危重癥患者出院評估更慎重,院內(nèi)觀察時間更長

胡必杰 從確診到出院歷經(jīng)一個多月,專家:危重癥患者出院評估更慎重,院內(nèi)觀察時間更長

作者:一點排行編輯 今天上午,上海首例危重患者治愈出院。上海新冠肺炎肺炎防治專家組成員、復(fù)旦大學(xué)附屬中山醫(yī)院傳染病科主任胡必杰表示,對危重患者的出院評估更加謹(jǐn)慎,需要更長時間。胡必杰說,這些病人需要一段時間才能從重病中恢復(fù)過來。為了更加謹(jǐn)慎,防止疾病復(fù)發(fā),他們在醫(yī)院...

在家鍛煉身體的方法 國家疾控最新數(shù)據(jù):中國人身體活動太少了!居家期間可以這樣鍛煉

在家鍛煉身體的方法 國家疾控最新數(shù)據(jù):中國人身體活動太少了!居家期間可以這樣鍛煉

作者:一點排行編輯 體育活動有助于降低患心血管疾病、癌癥和糖尿病等慢性病的風(fēng)險。然而,缺乏體育活動非常普遍,已經(jīng)成為世界十大死亡風(fēng)險因素之一。在中國,這已經(jīng)成為慢性病的主要原因之一。最近,中國疾控中心營養(yǎng)與健康研究所的團(tuán)隊在《中國疾控中心周報》上發(fā)布了中國成年人體育...

上海初中排名2019 2019上海中考成績今晚18點公布!請關(guān)注這些時間安排

上海初中排名2019 2019上海中考成績今晚18點公布!請關(guān)注這些時間安排

作者:一點排行編輯 2019年,上海初中畢業(yè)統(tǒng)一學(xué)業(yè)考試閱卷工作已基本完成??忌梢栽L問“上海招聘熱線”網(wǎng)站或東方網(wǎng)的“成績查詢”版塊。com從今天18: 00到7月15日12:00,在準(zhǔn)考證上輸入考生的12位注冊號和密碼查詢成績。同時,請注意以下時間安排:成就回顧...

猿人爭霸戰(zhàn)2 《猩球崛起2》上映時間劇情介紹海報曝光

猿人爭霸戰(zhàn)2 《猩球崛起2》上映時間劇情介紹海報曝光

  《猩球崛起-猩球黎明》故事仍在繼續(xù)。《猩球崛起2:黎明之戰(zhàn)》將于8月29日公映,獲得智慧的猿族在獲得自由之后將統(tǒng)治整個星球,而與此同時人類世界開始遭受病毒的攻擊而漸漸崩潰。下文紅圈星聞為你帶來猩球崛起2劇情介紹,猩球崛...

明星大偵探五 明星大偵探5嘉賓名單是原班 先導(dǎo)片和正片播出時間很良心

  • 明星大偵探五 明星大偵探5嘉賓名單是原班 先導(dǎo)片和正片播出時間很良心
  • 明星大偵探五 明星大偵探5嘉賓名單是原班 先導(dǎo)片和正片播出時間很良心
  • 明星大偵探五 明星大偵探5嘉賓名單是原班 先導(dǎo)片和正片播出時間很良心

大數(shù)據(jù)殺熟 人人都在聊大數(shù)據(jù)殺熟?你真的了解大數(shù)據(jù)嗎?

  • 大數(shù)據(jù)殺熟 人人都在聊大數(shù)據(jù)殺熟?你真的了解大數(shù)據(jù)嗎?
  • 大數(shù)據(jù)殺熟 人人都在聊大數(shù)據(jù)殺熟?你真的了解大數(shù)據(jù)嗎?
  • 大數(shù)據(jù)殺熟 人人都在聊大數(shù)據(jù)殺熟?你真的了解大數(shù)據(jù)嗎?

科捷物流 “倉+大數(shù)據(jù)+人工智能”,科捷物流亮相數(shù)字中國建設(shè)峰會

  • 科捷物流 “倉+大數(shù)據(jù)+人工智能”,科捷物流亮相數(shù)字中國建設(shè)峰會
  • 科捷物流 “倉+大數(shù)據(jù)+人工智能”,科捷物流亮相數(shù)字中國建設(shè)峰會
  • 科捷物流 “倉+大數(shù)據(jù)+人工智能”,科捷物流亮相數(shù)字中國建設(shè)峰會