作者| mark litwintschik
譯者| ma.yao,大小飛
來源、高效開發(fā)運(yùn)行和維護(hù)
在開發(fā)軟件或監(jiān)視正在運(yùn)行的系統(tǒng)時(shí),遙測(cè)和環(huán)境監(jiān)視至關(guān)重要。
以便了解系統(tǒng)的運(yùn)行狀況,本文介紹了 top、Htop、Glances 三個(gè)實(shí)用工具,以及一種用于監(jiān)控分布式系統(tǒng)的簡(jiǎn)單解決方案。在開發(fā)軟件或監(jiān)控運(yùn)行的系統(tǒng)時(shí),遙測(cè)和環(huán)境監(jiān)測(cè)都很重要。在理解了歷史情境下什么是正常行為之后,通常兩個(gè)最緊迫的問題是:(1)什么發(fā)生了變化?(2)什么表現(xiàn)出異常?
本文將介紹三個(gè)用于臨時(shí)監(jiān)控的流行工具,以及一種用于監(jiān)控分布式系統(tǒng)的簡(jiǎn)單解決方案。
top
在幾乎任何類 UNIX 的現(xiàn)代操作系統(tǒng)中,都可以通過輸入 top 來查看一些系統(tǒng)性能指標(biāo),這些指標(biāo)每幾秒鐘更新一次。
$ top -b -n2 -d5 top - 09:43:05 up 1:08, 0 users, load average: 0.52, 0.58, 0.59 Tasks: 4 total, 1 running, 3 sleeping, 0 stopped, 0 zombie %Cpu0 : 4.1 us, 22.2 sy, 0.0 ni, 72.3 id, 0.0 wa, 1.4 hi, 0.0 si, 0.0 st %Cpu1 : 4.3 us, 7.1 sy, 0.0 ni, 87.7 id, 0.0 wa, 0.9 hi, 0.0 si, 0.0 st %Cpu2 : 4.4 us, 9.0 sy, 0.0 ni, 85.3 id, 0.0 wa, 1.2 hi, 0.0 si, 0.0 st %Cpu3 : 3.6 us, 6.7 sy, 0.0 ni, 88.6 id, 0.0 wa, 1.0 hi, 0.0 si, 0.0 st KiB Mem: 33431016 total, 9521052 used, 23909964 free, 34032 buffers KiB Swap: 62455548 total, 27064 used, 62428484 free. 188576 cached Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1 root 20 0 8304 132 104 S 0.0 0.0 0:00.14 /init ro 3 root 20 0 8308 96 56 S 0.0 0.0 0:00.00 /init ro 4 mark 20 0 17856 5308 5192 S 0.0 0.0 0:00.35 -bash 228 mark 20 0 14452 1668 1172 R 0.0 0.0 0:00.01 top -b -n2 -d5其二進(jìn)制執(zhí)行過程與 Comcast 公司的 James Warner 編寫的 top 版本最相似。這個(gè)版本的 top 是全新的,并且是作為由包括 Lockheed Martin and Heidelberg University 在內(nèi)的各個(gè)組織開發(fā)人員的合寫版本的替代品開發(fā)而成的。
源代碼本身相當(dāng)簡(jiǎn)單,在撰寫本文時(shí),總共有 約 4900 行 C 代碼。目前 top 仍然處于開發(fā)過程中,其源代碼可以在 GitLab 的 procps 倉庫(https://gitlab.com/procps-ng/procps)找到。該倉庫中還包含其他工具,包括 kill、ps、sysctl、uptime 和 watch。
其默認(rèn)布局一直沒有改變過。但是通過過去幾十年與 UNIX 系統(tǒng)打交道,每次在一臺(tái)新機(jī)器上使用 top,我都會(huì)習(xí)慣性地輸入 zc1M。
top 默認(rèn)采用單色顯示模式,使用 z 將切換至指定顏色模式。數(shù)字 1 將顯示單個(gè) CPU 的狀態(tài),并且能夠突出顯示單個(gè) CPU 核的負(fù)載。我喜歡輸入 M,以查看基于內(nèi)存容量使用壓力排序后的各進(jìn)程信息。top 總共提供了 49 個(gè)供查看和排序的指標(biāo)。
默認(rèn)情況下,命令會(huì)截?cái)囡@示,輸入 c 會(huì)顯示有關(guān)其路徑和參數(shù)的更多擴(kuò)展信息。 我唯一不滿意的是命令和參數(shù)被截?cái)嗔?。如果只保留每條命令和參數(shù)的開頭與結(jié)尾,以便區(qū)分不同進(jìn)程,會(huì)更加實(shí)用。
top 配置的更改只會(huì)在當(dāng)前 session 有效。為了解決這個(gè)問題,輸入大寫的 W 會(huì)默認(rèn)將當(dāng)前配置保存到~/.toprc 中。我對(duì)該文件唯一不滿的地方是,它包含了大于 0x7F 的字節(jié)值,因而不易在 top 之外對(duì)其進(jìn)行更改。
$ hexdump -C ~/.toprc | head 00000000 74 6f 70 27 73 20 43 6f 6e 66 69 67 20 46 69 6c |top's Config Fil| 00000010 65 20 28 4c 69 6e 75 78 20 70 72 6f 63 65 73 73 |e (Linux process| 00000020 65 73 20 77 69 74 68 20 77 69 6e 64 6f 77 73 29 |es with windows)| 00000030 0a 49 64 3a 69 2c 20 4d 6f 64 65 5f 61 6c 74 73 |.Id:i, Mode_alts| 00000040 63 72 3d 30 2c 20 4d 6f 64 65 5f 69 72 69 78 70 |cr=0, Mode_irixp| 00000050 73 3d 31 2c 20 44 65 6c 61 79 5f 74 69 6d 65 3d |s=1, Delay_time=| 00000060 33 2e 30 2c 20 43 75 72 77 69 6e 3d 30 0a 44 65 , Curwin=0.De| 00000070 66 09 66 69 65 6c 64 73 63 75 72 3d a5 a8 b3 b4 ....| 00000080 bb bd c0 c4 b7 ba b9 c5 26 27 29 2a 2b 2c 2d 2e |........&')*+,-.| 00000090 2f 30 31 32 35 36 38 3c 3e 3f 41 42 43 46 47 48 |/012568<>?ABCFGH|Htop
2004 年,Hisham Muhammad 開始致力于創(chuàng)建一個(gè)截然不同的系統(tǒng)遙測(cè)監(jiān)控工具。Htop 關(guān)注遙測(cè)顯示的重新布局:使用條形圖展示 CPU 和內(nèi)存的關(guān)鍵指標(biāo);使用 F5 快捷鍵,使進(jìn)程信息在扁平化列表和層次結(jié)構(gòu)之間切換顯示;通過鼠標(biāo)點(diǎn)擊,可以實(shí)現(xiàn)屬性排序;并且支持 7 種不同的顏色模式。
該軟件能夠很好地使您停留在應(yīng)用當(dāng)中。如果您想要查看一個(gè)進(jìn)程使用的文件,您可以選擇該進(jìn)程,并只需輸入 l;如果您想要通過 strace 運(yùn)行該進(jìn)程,在以授權(quán)用戶身份運(yùn)行 htop 的情況下,只需輸入 s。
在 Ubuntu 16.04.2 LTS 上安裝和運(yùn)行 htop:
$ sudo apt install htop $ htop 1 [ 0.0%] Tasks: 37, 145 thr; 1 running 2 [ 0.0%] Load average: 0.03 0.05 0.07 3 [ 0.0%] Uptime: 01:31:42 4 [ 0.0%] Mem[|||||||||||||||||||||||||||||||| 1.03G] Swp[ 0K] PID USER PRI NI VIRT RES SHR S CPU% MEM% TIME+ Command 1 root 20 0 37556 5668 4004 S 0.0 0.1 0:03.03 /sbin/init noprompt 27884 clickhous 20 0 3716M 359M 49184 S 0.7 9.1 0:24.93 ├─ /usr/bin/clickhouse-server --config=/etc/cli 29668 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:00.10 │ ├─ /usr/bin/clickhouse-server --config=/etc/ 29667 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:01.02 │ ├─ /usr/bin/clickhouse-server --config=/etc/ 29666 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:00.08 │ ├─ /usr/bin/clickhouse-server --config=/etc/ 29665 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:00.48 │ ├─ /usr/bin/clickhouse-server --config=/etc/ 29409 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:03.48 │ ├─ /usr/bin/clickhouse-server --config=/etc/ 29408 clickhous 20 0 3716M 359M 49184 S 0.0 9.1 0:02.15 │ ├─ /usr/bin/clickhouse-server --config=/etc/至于配置方面,使用該軟件的過程中,任何配置修改都會(huì)默認(rèn)自動(dòng)保存至~/.config/htop/htoprc。該文件是個(gè)文本文件,但是附有下面的警告:
$ head -n2 ~/.config/htop/htoprc # Beware! This file is rewritten by htop when settings are changed in the interface. # The parser is also very primitive, and not human-friendly.鑒于其提供的功能比較簡(jiǎn)單,它的源代碼量還是相當(dāng)小的。在撰寫本文時(shí),它總共有約 12000 行 C 代碼,同時(shí)還包含約 3000 行代碼的其他文件。
Glances
Glances (https://nicolargo.github.io/glances/)是一個(gè)基于 Python 的系統(tǒng)遙測(cè)監(jiān)控工具。該項(xiàng)目由 Nicolas Hennion 于 2011 年開始創(chuàng)建。Nilcolas 的領(lǐng)英簡(jiǎn)介顯示,他在法國(guó)南部的 Thales Alenia Space 衛(wèi)星控制中心部門擔(dān)任項(xiàng)目經(jīng)理。
當(dāng)啟動(dòng) Glances 時(shí),除了常見的 CPU、內(nèi)存和進(jìn)程列表,還將看到云虛擬機(jī)類型以及網(wǎng)絡(luò)、硬盤、和 Docker 容器活動(dòng)等等。
$ glances ubuntu (Ubuntu 16.04 64bit / Linux 4.4.0-62-generic) Uptime: 18:55:00 CPU [ 1.7%] CPU - 1.7% nice: 0.0% ctx_sw: 923 MEM - 53.1% SWAP - 0.1% LOAD 4-core MEM [ 53.1%] user: 0.8% irq: 0.0% inter: 587 total: 3.84G total: 4.00G 1 min: 0.20 SWAP [ 0.1%] system: 0.7% iowait: 0.0% sw_int: 786 used: 2.04G used: 3.27M 5 min: 0.14 idle: 98.4% steal: 0.0% free: 1.80G free: 3.99G 15 min: 0.10 NETWORK Rx/s Tx/s TASKS 203 (349 thr), 1 run, 202 slp, 0 oth sorted automatically by CPU consumption ens33 152b 3Kb lo 59Kb 59Kb CPU% MEM% VIRT RES PID USER TIME+ THR NI S R/s W/s Command 2.6 4.5 524M 178M 16470 mark 35:48 1 0 S 0 0 /home/mark/. DISK I/O R/s W/s 2.3 0.6 372M 24.5M 14672 mark 0:01 1 0 R 0 0 /home/mark/. fd0 0 0 1.0 23.7 5.42G 931M 21151 root 13:00 71 0 S ? ? java -Xmx1G loop0 0 0 0.7 9.8 3.71G 385M 27884 clickhous 5:29 46 0 S ? ? /usr/bin/cli loop1 0 0 0.3 2.8 3.53G 109M 12883 ZooKeeper 1:36 20 0 S ? ? /usr/bin/jav loop2 0 0 0.3 0.2 31.4M 6.80M 333 root 0:53 1 0 S ? ? /lib/systemd loop3 0 0 0.3 0.1 13.8M 2.68M 4353 mark 1:07 1 0 S 0 0 watch ifconf loop4 0 0 0.0 0.3 186M 9.86M 1447 root 0:35 2 0 S ? ? /usr/bin/vmt loop5 0 0 0.0 0.2 75.2M 8.11M 1470 root 0:00 1 0 S ? ? /usr/bin/VGA loop6 0 0 0.0 0.2 90.6M 6.59M 4381 root 0:00 1 0 S ? ? sshd: mark [ loop7 0 0 0.0 0.1 269M 5.75M 595 root 0:13 3 0 S ? ? /usr/lib/acc sda 0 78K 0.0 0.1 36.7M 5.37M 1 root 0:37 1 0 S ? ? /sbin/init n sda1 0 78K 0.0 0.1 64.0M 5.31M 4246 root 0:00 1 0 S ? ? /usr/sbin/ss sda2 0 0 0.0 0.1 44.3M 5.05M 3402 mark 0:00 1 0 S 0 0 /lib/systemd sda5 0 0 0.0 0.1 21.8M 5.04M 4403 mark 27:23 1 0 S 0 0 -bash sr0 0 0 0.0 0.1 21.8M 4.93M 21493 mark 0:10 1 0 S 0 0 /bin/bash sr1 0 0 0.0 0.1 21.7M 4.62M 16114 mark 0:03 1 0 S 0 0 /bin/bash 0.0 0.1 21.7M 4.47M 21119 mark 0:00 1 0 S 0 0 /bin/bash FILE SYS Used Total 0.0 0.1 90.6M 4.14M 4402 mark 0:08 1 0 S ? ? 0 / (sda1) 2.48G 15.6G 0.0 0.1 250M 3.97M 588 syslog 0:28 4 0 S ? ? /usr/sbin/rs 0.0 0.1 21.8M 3.87M 3407 mark 0:04 1 0 S 0 0 -bash SENSORS 0.0 0.1 51.5M 3.76M 21144 root 0:00 1 0 S ? ? sudo nohup / Physical id 100C 0.0 0.1 41.9M 3.64M 597 messagebu 0:00 1 0 S ? ? /usr/bin/dbu Core 0 100C 0.0 0.1 43.2M 3.45M 396 root 0:01 1 0 S ? ? /lib/systemd Core 1 100C 0.0 0.1 64.3M 3.21M 3377 root 0:00 1 0 S ? ? /bin/login - Core 2 100C 0.0 0.1 28.0M 2.91M 592 root 0:00 1 0 S ? ? /lib/systemd Core 3 100C 0.0 0.1 26.7M 2.86M 16113 mark 0:06 1 0 S ? ? SCREEN 0.0 0.1 15.7M 2.81M 774 root 0:00 1 0 S ? ? /sbin/dhclieGlances 由約 1 萬行 Python 代碼和約 2.5 萬行 JavaScript 代碼寫成,并依賴于 psutil (https://github.com/giampaolo/psutil/)軟件包以用于遙測(cè)數(shù)據(jù)收集。它還含有大量 插件,包括支持監(jiān)控 GPU、Kafka、RAID 設(shè)置、文件夾監(jiān)控以及 WiFi 等等。
除了基于 ncurses 的界面,Glances 也能以 Web 應(yīng)用的形式運(yùn)行。當(dāng)在 Windows 10 上通過 cmd.exe 運(yùn)行 Glances 的時(shí)候,將啟動(dòng)一個(gè)運(yùn)行在 TCP 端口為 61209 的 Bottle Web 應(yīng)用。在瀏覽器中打開 ,會(huì)看到一個(gè)AngularJS 應(yīng)用程序的歡迎頁面。該頁面模仿了 ncurses 界面。
也可以通過調(diào)用其暴露的 API 接口,配合其他工具使用:
$ curl /api/3/all \ | python -mj \ | head -n50 { "alert": [], "amps": [], "batpercent": [], "cloud": {}, "core": { "log": 4, "phys": 4 }, "cpu": { "cpucore": 4, "ctx_switches": 182358, "idle": 82.9, "interrupts": 113134, "soft_interrupts": 0, "syscalls": 215848, "system": 12.5, "time_since_update": 8.532670974731445, "total": 9.8, "user": 3.1 }, "diskio": [ { "disk_name": "PhysicalDrive6", "key": "disk_name", "read_bytes": 0, "read_count": 0, "time_since_update": 8.492774963378906, "write_bytes": 0, "write_count": 0 }, { "disk_name": "PhysicalDrive2", "key": "disk_name", "read_bytes": 0, "read_count": 0, "time_since_update": 8.492774963378906, "write_bytes": 0, "write_count": 0 }, ...雖然默認(rèn)的配置文件(https://github.com/nicolargo/glances/blob/develop/conf/glances.conf)有些冗長(zhǎng),但是用戶編輯起來還算方便。
Glances 還支持將遙測(cè)數(shù)據(jù)導(dǎo)出到 16 個(gè)以上不同的目標(biāo)文件中,包括 StatsD、Kafka、RabbitMQ、JSON、SVG、ElasticSearch、CSV 以及自定義 RESTful API。
將 Glances 導(dǎo)入 Kafka
以下將介紹將遙測(cè)數(shù)據(jù)導(dǎo)入 CSV 文件,再導(dǎo)入 Kafka。我認(rèn)為本地硬盤通常要比網(wǎng)絡(luò)連接更靠譜。當(dāng)網(wǎng)絡(luò)連接出現(xiàn)問題的時(shí)候,我們還可以利用本地文件再次回填 Kafka。
以下命令運(yùn)行在新安裝的 Ubuntu 16.04.2 LTS 上:
$ sudo apt update $ sudo apt install \ kafkacat \ python-pip \ python-virtualenv \ screen \ zookeeperd使用 Apache 鏡像上的二進(jìn)制包,手動(dòng)安裝 Kafka:
$ sudo mkdir -p /opt/kafka $ wget -c -O ka \ $ sudo tar xzvf ka \ --directory=/opt/kafka \ --strip 1為 Kafka 創(chuàng)建日志文件,其權(quán)限使用我的 UNIX 賬號(hào):
$ sudo touch /var/log $ sudo chown mark /var/logZooKeeper 支持了 Kafka 的大多數(shù)分布式功能,以下命令將啟動(dòng) ZooKeeper 服務(wù):
$ sudo /etc start啟動(dòng)完 ZooKeeper,啟動(dòng) Kafka 服務(wù)器進(jìn)程:
$ sudo nohup /opt/kafka/bin \ /opt/kafka/config \ > /var/log 2>&1 &創(chuàng)建 Python 虛擬環(huán)境,并安裝 Glances 以及 CSVKit,以便分析 Glances 的 CSV 文件輸出:
$ virtualenv ~/.monitoring $ source ~/.monitoring/bin/activate $ pip install \ csvkit \ glances接著,啟動(dòng) screen 會(huì)話和 Glances。它將顯示 ncurses 界面,并向~ 中寫入 215 條數(shù)據(jù):
$ screen $ glances --export csv \ --export-csv-file ~一旦運(yùn)行起來,按 CTRL-A,接著按 CTRL-D,返回到常規(guī)的 Shell 界面。
如下所示,這里有大量收集到的遙測(cè)數(shù)據(jù):
$ csvstat --type ~ | tail 206. mem_available: Number 207. mem_used: Number 208. mem_cached: Number 209. mem_percent: Number 210. mem_free: Number 211. mem_inactive: Number 212. mem_active: Number 213. mem_shared: Number 214. mem_total: Number 215. mem_buffers: NumberKafkacat 是采用 C 語言寫的一個(gè)非 JVM 的 Kafka 生產(chǎn)者和消費(fèi)者。靜態(tài)鏈接的包大小要小于 150KB。使用它,將~ 中的內(nèi)容導(dǎo)入 Kafka Topic “glances_log”中,并對(duì)內(nèi)容進(jìn)行 Snappy 壓縮。
$ screen $ tail -F ~ \ | kafkacat -b localhost:9092 \ -t glances_log \ -z snappy接下來,一旦運(yùn)行起來,按 CTRL-A,然后按 CTRL-D,返回到常規(guī) Shell 界面。
以上這些運(yùn)行在 screen 會(huì)話中的任何命令,都可以方便地添加到 Supervisord。另外,如果這些進(jìn)程因?yàn)槿魏卧驋炝?,都能很好地重啟它們?/p>
完成上述操作之后,查看前 100 條記錄的前三列數(shù)據(jù):
$ /opt/kafka/bin \ --topic glances_log \ --from-beginning \ --zookeeper localhost:2181 \ | head -n100 \ | csvstat --columns 1-3 \ --no-header-row以下是基于前 100 條記錄,收集到的時(shí)間戳、CPU 核數(shù)以及一分鐘負(fù)載均值的統(tǒng)計(jì)信息:
1. "a" Type of data: DateTime Contains null values: False Unique values: 100 Smallest value: 2018-10-07 05:53:49 Largest value: 2018-10-07 05:58:55 Most common values: 2018-10-07 05:53:49 (1x) 2018-10-07 05:53:52 (1x) 2018-10-07 05:53:55 (1x) 2018-10-07 05:53:58 (1x) 2018-10-07 05:54:01 (1x) 2. "b" Type of data: Number Contains null values: False Unique values: 1 Smallest value: 4 Largest value: 4 Sum: 400 Mean: 4 Median: 4 StDev: 0 Most common values: 4 (100x) 3. "c" Type of data: Number Contains null values: False Unique values: 18 Smallest value: 0.02 Largest value: 0.22 Sum: 6.57 Mean: 0.066 Median: 0.05 StDev: 0.045 Most common values: 0.04 (15x) 0.02 (14x) 0.03 (13x) 0.06 (9x) 0.05 (9x)英文原文:
1.《【tenvf警告碼1】三種系統(tǒng)監(jiān)控工具對(duì)比:top vs Htop vs Glances》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《【tenvf警告碼1】三種系統(tǒng)監(jiān)控工具對(duì)比:top vs Htop vs Glances》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/gl/3167135.html