首先,我們使用file命令讀取一個`=char',即第一行“Crawler Club”前的一個水平制表符,也讀取第二行“Crawler to the”后的一個水平制表符。但要注意的是,第一行的制表符占據(jù)8列,而第二行輸入的制表符僅占據(jù)2個字節(jié)。為什么?
Tab鍵具有以下特點:每次按下時,光標會自動定位下一個制表符的位置,在一個制表符寬度范圍內,添加或刪除文本不會影響文本在下一個制表符中的位置。
因此,無論光標位于何處,按tab鍵都會自動將光標定位到下一個制表符位置,并且該位置的列數(shù)必須是8的整數(shù)倍。因此,雖然在文本的兩行中都讀取了水平制表符,但是第一個制表符占據(jù)8列,而第二個制表符僅占據(jù)2列,因為前面的字符占據(jù)14列,并且下一個制表符的位置是第16列。這就是為什么有時候我們在文檔的不同位置按Tab鍵,長度是不一樣的。
標簽導入Stata時,標簽本身一定還是標簽嗎?答案是否定的,可能會變成n個連續(xù)的空格。比如用fileread函數(shù)或importlimited導入Stata后,仍然是tab本身,但用infix讀取Stata后,tab變成了n個連續(xù)的空單元格,下面我們用兩個簡單的例子來說明:
01
fileread函數(shù)將temp.txt導入Stata
清晰的
引發(fā)更多
設置obs 1
gen v = fileread
可以看到,用中綴把temp.txt導入Stata后,tab不存在了,那么它變成我們前面提到的n 空單元格了嗎?然后我們替換:
替換v = ustrregexra
還是那句話,沒有替代品。原因是用中綴讀一個文本文檔時,其中的制表符會變成連續(xù)的四個空單元格,中綴讀完之后會自動刪除每一行首末的空單元格,因為本例中的制表符在兩行首末,所以被刪除。如果Tab鍵位于字符串之間,則在導入Stata后,它將嘗試n個連續(xù)的空單元格,例如:
tempname temp
使用temp.txt打開“temp”文件,文本寫入替換
文件寫' temp' `"`=char'爬蟲俱樂部` =char'會把爬蟲` =char'帶到最后" ' _n
文件關閉` temp '
shellout temp.txt
您可以看到temp.txt文檔中有三個選項卡,其中一個位于字符串的開頭,另外兩個位于字符串之間。然后將文本文檔導入stata,水平制表符用“×”替換為空
infix str25 v 1-200,使用temp.txt,清零
替換v = ustrregexra
壓縮
表
很明顯,字符串開頭的制表符是不替換的,但是字符串之間的制表符用中綴導入stata后,不同位置對應的空單元格數(shù)量是不一樣的。為什么?我們知道,制表符占用的列數(shù)必須是8的整數(shù)倍。對于位于字符串“Crawler Club”之后的制表符,制表符前面的字符串即“Crawler Club”已經(jīng)占用了15個字節(jié)的長度。
所以下面的tab應該占據(jù)一個字節(jié)位置,所以對應的是空的情況,相應的用x代替;至于字符串“Crawler”后面的制表符,它前面的字符串“Crawler Club X”占用25個字節(jié),所以這個制表符應該占用7個字節(jié),對應7 空個網(wǎng)格,并相應替換為7個“X”。
2
0
一個
七
文字編輯/高金鳳
關于我們
微信微信官方賬號“Crawler Club”分享實用stata命令,歡迎轉載和獎勵。爬蟲俱樂部是由李春濤教授帶領的研究生和本科生組成的大數(shù)據(jù)分析和數(shù)據(jù)挖掘團隊。
提交要求:
1)必須是原創(chuàng),禁止抄襲;
2)一定要準確,詳細,有舉例和截圖;
注意事項:
1)所有投稿都會經(jīng)過微信官方賬號運營團隊成員審核,審核通過后才能錄用。一旦被錄用,作者將在推特上簽名,并獲得獎勵。
2)請在郵件中注明提交,郵件名稱為“提交”+“推文名稱”。
3)應讀者要求,現(xiàn)提供付費問答服務。如果遇到關于stata分析數(shù)據(jù)的問題,可以在微信官方賬號里問,只需要付一點小報酬。我們會在后面的推文中回答他們。
1.《正則表達式空格 正則表達式之空白元字符》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《正則表達式空格 正則表達式之空白元字符》僅供讀者參考,本網(wǎng)站未對該內容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內容來源地址,http://f99ss.com/guoji/1694421.html