Brendan Gregg 推薦了一整包內建的工具 (透過系統的 apt repository 就能裝),平常先準備好,出問題的時候可以直接拿出來用:「Linux Crisis Tools」。
作者有提到表上列出來的工具算是基本盤,有特殊硬體的情況 (像是 GPU) 需要再加裝其他的套件:
This list is a minimum. Some servers have accelerators and you'll want their analysis tools installed as well: e.g., on Intel GPU servers, the intel-gpu-tools package; on NVIDIA, nvidia-smi. Debugging tools, like gdb(1), can also be pre-installed for immediate use in a crisis.
這邊是把表格有提到的都放進去,另外包括了上面提到的 GDB:
sudo apt install -y bpfcc-tools bpftrace cpuid ethtool gdb iproute2 linux-tools-common msr-tools nicstat numactl procps sysstat tcpdump tiptop trace-cmd util-linux; sudo apt clean
裝了以後可以順便拿這張表格練練手,把不熟悉的工具開 backlog 找機會練手,熟悉一下這些工具的常用用法,這樣遇到狀況的時候可以直接用...