丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁 > 娛樂

SSIS 「數(shù)據(jù)ETL」從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)蛻變之旅(六)-將Python的能力嫁接到SSIS中

在之前的推文中,我展示了如何在SSIS上使用dotNET腳本來實現(xiàn)一些原生SSIS人很難實現(xiàn)的功能,并稱之為無限可能。

對于一些非dotNET的人來說,很難發(fā)揮自己的知識儲備能力。這篇文章鄭重宣布,所有過去的知識都可以為SSIS所用。

這個演示python腳本有助于清理數(shù)據(jù),這成為SSIS過程的一部分。同樣,其他語言和工具也可以完成它,只要有最終輸出,SSIS就可以使用。

充分復(fù)用python的現(xiàn)有優(yōu)勢

Python確實是一種非常好的編程語言,尤其是在數(shù)據(jù)領(lǐng)域,在web爬蟲、數(shù)據(jù)處理和分析方面非常強大。

估計現(xiàn)在很多做數(shù)據(jù)的朋友或多或少都會學(xué)python。深入學(xué)習(xí)一門語言代價很高,入門也很容易。

尤其是在掌握一門現(xiàn)有語言的基礎(chǔ)上,學(xué)習(xí)一門新的語言并不難。您可以熟悉語法、現(xiàn)有類庫和包調(diào)用。

因為作者喜歡使用現(xiàn)成的微軟工具,對微軟的生態(tài)有深入的研究,產(chǎn)品之間有廣泛的跨應(yīng)用場景,所以學(xué)習(xí)dotNET是一個非常好的投資回報。

如果其他朋友的學(xué)習(xí)路徑主要是python,那么這篇論文可以給python社區(qū)很大的樂趣,盡自己最大的努力用python,把剩下的過程交給SSIS現(xiàn)有的成熟易用的數(shù)據(jù)ETL框架,這樣可以充分發(fā)揮雙重優(yōu)勢。

演示內(nèi)容介紹

本文打算用python來清理數(shù)據(jù)。引用的案例是我?guī)煾祹襾韉otNET產(chǎn)生的案例:清理一個課程數(shù)據(jù),轉(zhuǎn)換成結(jié)構(gòu)化的一維表結(jié)構(gòu)。

我的主人精通dotNET、python等語言,是一名專業(yè)的程序員。他的代碼很標(biāo)準,值得學(xué)習(xí)和關(guān)注。

詳細文章來源:

數(shù)據(jù)源結(jié)構(gòu)是:

最終轉(zhuǎn)換的結(jié)果:

工作原理介紹

這次SSIS可以調(diào)用本地程序的函數(shù),調(diào)用CMD,然后輸入?yún)?shù)python main.py,啟用python,運行文件main.py

以上前提是本機安裝了python,設(shè)置了環(huán)境變量,讓CMD可以通過輕敲python直接啟動python程序,并根據(jù)不同腳本的要求安裝相應(yīng)的包。比如本文使用熊貓進行數(shù)據(jù)清理,熊貓包需要用python安裝。

從實例數(shù)據(jù)運行python腳本。xlsx生成res.csv文件..

在SSIS上使用python腳本

在控制流任務(wù)中,有執(zhí)行過程任務(wù)。將任務(wù)拖到右側(cè),雙擊該任務(wù)進行詳細配置。

在[處理]選項卡中,將[可執(zhí)行]參數(shù)作為CMD路徑,這與運行其他程序相同。

在【參數(shù)】參數(shù)中,輸入CMD調(diào)用的參數(shù),在這里輸入絕對路徑,在CMD參數(shù)中加入/C開關(guān),表示CMD程序運行后關(guān)閉。

python的路徑識別中,需要轉(zhuǎn)換成反斜杠,比如python F:/Share from media/other articles/data ETL/main . py

運行后關(guān)閉程序非常重要。如果想在[可執(zhí)行文件]中直接運行程序,最后一步就是關(guān)閉程序本身,比如用dotNET寫一些控制臺程序。否則,最好使用CMD運行所需的程序,并添加/C開關(guān)來關(guān)閉它,以便SSIS任務(wù)流可以流向下一個任務(wù)。

創(chuàng)建任務(wù)后,可以獨立執(zhí)行任務(wù),測試最終效果。

在這里,我們將向您展示控制流任務(wù),它可以將我們?nèi)粘5脑S多編程代碼任務(wù)轉(zhuǎn)換成控件拖動的方式。例如,如果上面的py腳本不是防錯的,當(dāng)res.csv文件已經(jīng)存在時,它將在再次生成時報告錯誤。這里使用SSIS的[文件系統(tǒng)任務(wù)]先完成文件刪除操作。

接下來,我們返回到常規(guī)任務(wù),提取新生成的res.csv文件并將其加載到數(shù)據(jù)庫中。

本文中的文件是一個csv文件,使用[平面文件源]讀取。具體配置比【Excel Source】復(fù)雜。但是,因為很常見,所以要熟悉。

我們將目標(biāo)存儲在關(guān)系數(shù)據(jù)庫中,這樣數(shù)據(jù)的二次利用更加方便,數(shù)據(jù)庫的存儲數(shù)據(jù)也能得到保證。

最后,我們的數(shù)據(jù)流任務(wù)如下,增加了加載時間,方便了后期審核。

最后,我們的控制流任務(wù)如下,以達到我們的預(yù)期結(jié)果,并將清理后的數(shù)據(jù)從python中交給SSIS的后續(xù)步驟進行調(diào)用。

打開SSMS上的目標(biāo)表,發(fā)現(xiàn)數(shù)據(jù)已成功加載。

為什么不使用一步直接python完成或SSIS完成?

在python社區(qū)中,熟練使用后直接將數(shù)據(jù)上傳到數(shù)據(jù)庫并不困難。

但是對于一個基于工具的做事方式,為什么你有現(xiàn)成的不需要的工具,卻要自己從頭開始寫代碼,而且寫出來的代碼沒有專業(yè)工具那么周到完善,比如數(shù)據(jù)上傳過程中的錯誤怎么處理?如何保證數(shù)據(jù)上傳的性能等。,沒有足夠的專業(yè)性是寫不出健壯的代碼的。

所以,如果能充分利用每種工具的最大優(yōu)勢,結(jié)合使用,每種工具都可以完成手頭的任務(wù),而不用學(xué)得太深。為什么不可以?

同理,如果用SSIS直接處理雜亂的數(shù)據(jù)源,也是一個很痛苦的過程,沒有python現(xiàn)成熊貓那樣的專業(yè)庫清理數(shù)據(jù)方便。

標(biāo)簽

本文再次拓寬了我們的思路,使用現(xiàn)成的SSIS ETL框架功能,加上一些其他現(xiàn)成的易于使用的數(shù)據(jù)處理工具,使我們的數(shù)據(jù)ETL過程更加容易,處理更復(fù)雜場景的能力也更強。

在下一篇文章中,我們回到微軟部門,使用SSIS和PowerQuery將輕量級ETL工具的一些易于使用的功能移植到SSIS,同時避免使用這個短板。請注意。

未來作者將專注于數(shù)據(jù)共享,不僅限于Excel,還會分享更多諸如Sqlserver、dotNET、Azure、PowerBI等話題。,并提升數(shù)據(jù)分析能力。歡迎繼續(xù)關(guān)注。*

系列文章

從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)的旅程(一)——https://www.jianshu.com/p/2bd3f90206ec工具概述

從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)的旅程(2)——重溫Excel catalyst的經(jīng)典https://www.jianshu.com/p/cb89929bb8ae

“數(shù)據(jù)ETL”:從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)的旅程(3)——除了Excel催化劑,PowerQuery更值得https://www.jianshu.com/p/d154b09c881d期待

“數(shù)據(jù)ETL”:從數(shù)據(jù)農(nóng)民工到數(shù)據(jù)白領(lǐng)的轉(zhuǎn)型之旅(ⅳ)——用PowerQuery還需要SSIS嗎?https://www.jianshu.com/p/7ca5a3785bd0

“數(shù)據(jù)ETL”:從數(shù)據(jù)農(nóng)民工到數(shù)據(jù)白領(lǐng)的轉(zhuǎn)型之旅(5)——用dotNET腳本實現(xiàn)SSIS無限擴張https://www.jianshu.com/p/8de014b1f957

關(guān)于Excel催化劑

Excel catalyst最早命名為微信微信官方賬號,后來正式推出為Excel插件。插件會持續(xù)更新,更新周期看我的時間,爭取一周內(nèi)推出一個大功能模塊。Excel catalyst插件承諾個人用戶永久免費使用!

Excel catalyst插件采用最新的部署技術(shù)實現(xiàn)一次性安裝,以后所有更新都會自動更新。與其反復(fù)關(guān)注更新動態(tài),不如手動下載安裝包重新安裝,只需一次安裝,隨時保持最新版本!

Excel catalyst插件下載鏈接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

聯(lián)系作者微信官方賬號

命名為catalyst,因為Excel本身功能強大,不是每個人都能馬上享受到的。大部分人還處于被Excel軟件濫用的階段,也就是想達到的效果在腦子里想清楚了,高手已經(jīng)達到了,也就是自己弄不出來,或者更糟的是,還不知道Excel能做什么,還在不停的重復(fù),機械的手動的做數(shù)據(jù),消耗著無數(shù)年的青春。所以誕生了是否可以作為媒介,讓廣大Excel用戶瞬間點燃Excel的爆點,不用日以繼夜的苦學(xué)技能,不用燃燒高級復(fù)雜功能的大腦,最終走向從入門到放棄的道路。

最后,Excel功能強大。其實需要建立一個觀點。不是所有的事情都要用Excel來做,也不是所有的事情用Excel都很勝任。外面的世界還是一個廣闊的世界。Excel只是耀眼的明星之一,還有很多其他同樣精彩強大的技術(shù)和工具。*Excel catalyst還會利用這些其他技術(shù),讓Excel發(fā)揮出更強大的爆炸作用!

Excel催化劑作者

姓名:李偉健,從事數(shù)據(jù)分析多年(BI方向),也在路上的學(xué)習(xí)者。

服務(wù)行業(yè):零售,尤其是鞋服零售行業(yè),電商(淘寶、天貓、JD.COM、唯品會)

技術(shù)路線從一個普通用戶,通過學(xué)習(xí)Excel軟件,到數(shù)據(jù)世界,非專業(yè)IT專業(yè)人士。

經(jīng)過重重困難,它終于在數(shù)據(jù)的道路上到達了技術(shù)平原期,學(xué)習(xí)很多知識不再太難,同時也形成了自己的一套數(shù)據(jù)解決方案(數(shù)據(jù)采集、數(shù)據(jù)處理與清理、數(shù)據(jù)多維建模、數(shù)據(jù)報表顯示等)。).

擅長技術(shù)領(lǐng)域:Excel、VBA&等辦公家庭軟件;VSTO的二次開發(fā),Sqlserver數(shù)據(jù)庫技術(shù),Sqlserver的商業(yè)智能BI技術(shù),Powerbi技術(shù),云服務(wù)器部署技術(shù)等等。

從2018年開始,他的職業(yè)生涯有了重大調(diào)整。他從原來的全職變成了自由職業(yè)者,暫時沒有固定收入。他不清楚前面的路,又要回歸全職工作,肯定會對Excel catalyst的運營和發(fā)展造成很大影響(全職工作時間內(nèi)無法在工作時間內(nèi)維護和發(fā)布結(jié)果,工作之外的時間也很有限。因為他早年,家庭責(zé)任很大)。

希望和廣大支持者一起,Excel catalyst可以一直運行,我受益的群體可以給予支持(多消息鼓勵,朋友圈推薦,小額獎勵,最重要的是可以和我的公司和同行一起推薦,讓我的技術(shù)在貴公司發(fā)揮價值,實現(xiàn)雙贏(初步假設(shè)可以以數(shù)據(jù)顧問或者一些小規(guī)模項目開發(fā)的方式合作)。

1.《SSIS 「數(shù)據(jù)ETL」從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)蛻變之旅(六)-將Python的能力嫁接到SSIS中》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《SSIS 「數(shù)據(jù)ETL」從數(shù)據(jù)民工到數(shù)據(jù)白領(lǐng)蛻變之旅(六)-將Python的能力嫁接到SSIS中》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/yule/1078020.html

上一篇

沈昌珉婚禮一張圖都沒有 沈昌珉結(jié)婚對象是竹內(nèi)涉嗎

下一篇

美劇好看的有哪些

世衛(wèi)組織肯定中國訂正病例數(shù)據(jù) 還原事發(fā)經(jīng)過及背后真相!

世衛(wèi)組織肯定中國訂正病例數(shù)據(jù) 還原事發(fā)經(jīng)過及背后真相!

世界衛(wèi)生組織衛(wèi)生緊急項目技術(shù)負責(zé)人范凱爾克霍弗4月17日表示,中國向世衛(wèi)組織上報訂正的病例數(shù)據(jù)非常重要,事關(guān)公共衛(wèi)生,必須掌握確切的數(shù)字和情況。她預(yù)計許多國家在回顧新冠病例統(tǒng)計數(shù)據(jù)時都會遇到同樣的情況,并表示已關(guān)注到有報道...

安徽高考語文 2019年安徽省文理科錄取率近1:3,看大數(shù)據(jù)謀2020年高考!

安徽高考語文 2019年安徽省文理科錄取率近1:3,看大數(shù)據(jù)謀2020年高考!

本文內(nèi)容 一、2019年安徽省高考總錄取人數(shù) 二、文理科錄取比較 三、新高中第三輪復(fù)習(xí)計劃 1.文理科錄取 2019年高考,安徽省考生513,274人。 共有427,136名學(xué)生被錄取,外加五年制 21,727名學(xué)生就讀于高等職業(yè)院校的第三和第二部分。 綜合錄取率達到83.9%, 比上年高0...

海鷹 亞馬遜工具介紹:海鷹數(shù)據(jù)

海鷹 亞馬遜工具介紹:海鷹數(shù)據(jù)

深圳林友信息科技有限公司(迎海數(shù)據(jù))是一家國內(nèi)跨境電商大數(shù)據(jù)分析公司。海鷹數(shù)據(jù)可以支持Wish、亞馬遜、eBay、Shopee數(shù)據(jù)分析。 以亞馬遜為例: 1.抓取范圍:服裝、鞋類&珠寶類,前4萬;所有其他網(wǎng)站的類別,前20,000。 2.特價商品:如在分店類,不要搶;沒有一流排名的Asin不...

程序設(shè)計導(dǎo)引及在線實踐 應(yīng)用型本科計算機《Android程序設(shè)計及實踐 》

程序設(shè)計導(dǎo)引及在線實踐 應(yīng)用型本科計算機《Android程序設(shè)計及實踐 》

""  本書是在國家大力推進“互聯(lián)網(wǎng)+”和創(chuàng)業(yè)教育教學(xué)方法改革的基礎(chǔ)上,按照教育部《創(chuàng)業(yè)基礎(chǔ)》教學(xué)大綱的要求,以傳授創(chuàng)業(yè)知識為基礎(chǔ),以培養(yǎng)創(chuàng)業(yè)能力為重點,以培養(yǎng)創(chuàng)業(yè)精神為重點撰寫的。 本書共分6章(16講)。每節(jié)課都認真的編撰了創(chuàng)業(yè)的基礎(chǔ)知識,提出了需要考慮的問題。同時,相關(guān)創(chuàng)業(yè)案例附在每節(jié)...

短鏈 縮短網(wǎng)址工具遍地都是,為何51la要上線短鏈分發(fā)平臺?

  • 短鏈 縮短網(wǎng)址工具遍地都是,為何51la要上線短鏈分發(fā)平臺?
  • 短鏈 縮短網(wǎng)址工具遍地都是,為何51la要上線短鏈分發(fā)平臺?
  • 短鏈 縮短網(wǎng)址工具遍地都是,為何51la要上線短鏈分發(fā)平臺?

menubar 這 13 個小工具,讓我的 Mac 菜單欄更好用

金丹有價 金丹科技財務(wù)數(shù)據(jù)前后矛盾 張鵬“不甘心”欲再闖IPO

  • 金丹有價 金丹科技財務(wù)數(shù)據(jù)前后矛盾 張鵬“不甘心”欲再闖IPO
  • 金丹有價 金丹科技財務(wù)數(shù)據(jù)前后矛盾 張鵬“不甘心”欲再闖IPO
  • 金丹有價 金丹科技財務(wù)數(shù)據(jù)前后矛盾 張鵬“不甘心”欲再闖IPO

桂林論壇 中國數(shù)字銀行論壇·2019桂林論壇召開 國內(nèi)首個全流程數(shù)據(jù)治理方案亮相

【桂林日報】(記者孫敏實習(xí)生何梅)8月8日,中國數(shù)字銀行論壇2019桂林論壇在桂林大廈舉行。本次論壇聚集了來自全國各地的200多名銀行高管、行業(yè)專家和主流媒體代表,他們聚集在一起討論銀行數(shù)字化轉(zhuǎn)型的新趨勢。中國首個全流程數(shù)據(jù)治理方案在本次論壇上揭曉。 中國數(shù)字銀行論壇是銀行業(yè)公認的高標(biāo)準、高...