一、服務器怎么運營?
檢查磁盤使用率(lv),當磁盤使用率(lv)超過80%,可(ke)以清除一(yi)些日志文件;
檢查內(nei)存使(shi)用(yong)情(qing)況(kuang),當內(nei)存使(shi)用(yong)過多時,需(xu)要(yao)檢查是哪個進程占(zhan)用(yong),是否合(he)理;
檢查CPU使(shi)用情況,負(fu)載大(da)小;當CPU使(shi)用過(guo)多,負(fu)載過(guo)大(da)時,需要檢查是哪個進程占用,是否合理。
檢(jian)查服務器網卡接口的數據統計(ji)和(he)每(mei)秒收發包(bao)的個(ge)數和(he)流量。
還需要結合(he)服務器的(de)業務,當(dang)然,這些可用使用監(jian)控(kong)軟件自動檢查,故障報(bao)警(jing)等,實時掌握服務器的(de)運行情(qing)況。
二、服務器運營注意事項
1、提前檢查
服(fu)務(wu)器和網站(zhan)漏洞檢測,對Web漏洞、弱口令、潛在的惡意行為(wei)、違法信息等進行定期掃描。
代碼的定(ding)期檢(jian)查(cha),安全檢(jian)查(cha),漏洞(dong)檢(jian)查(cha)。
服務器安(an)全(quan)加固,安(an)全(quan)基線(xian)設(she)置,安(an)全(quan)基線(xian)檢(jian)查。
數據庫執行的命令,添(tian)加(jia)字段、加(jia)索(suo)引(yin)等,必須(xu)是經(jing)過測試檢查的命令,才能在正式環境運(yun)行。
2、數據備份
服務器數(shu)據備(bei)份(fen),包括網站(zhan)程(cheng)序文件備(bei)份(fen),數(shu)據庫文件備(bei)份(fen)、配置文件備(bei)份(fen),如(ru)有資源最(zui)好(hao)每(mei)小時(shi)備(bei)份(fen)和異地(di)備(bei)份(fen)。
建(jian)立五重備份機制:常規(gui)備份、自動同(tong)步、LVM快照、Azure備份、S3備份。
定期檢查備份(fen)文件是否可(ke)(ke)用(yong),避免出故障(zhang)后,備份(fen)數據不可(ke)(ke)用(yong)。
重要數據多重加(jia)密(mi)算法加(jia)密(mi)處理。
程(cheng)序文件版本控制(zhi),測試,發(fa)布,故障回滾。
3、安全監控
nagios監控服(fu)務器常規狀態CPU負載、內存(cun)、磁(ci)盤、流量,超過(guo)閾值告警。
zabbix或cacti監(jian)控服務器常規狀(zhuang)態CPU負載、內存(cun)、磁盤、流量等狀(zhuang)態,可(ke)以顯(xian)示歷史曲線,方便(bian)排(pai)查(cha)問題。
監控服務器SSH登錄(lu)(lu)記錄(lu)(lu)、iptables狀(zhuang)態、進(jin)程狀(zhuang)態,有異(yi)常記錄(lu)(lu)告(gao)警。
監控網(wang)站WEB日志(zhi)(zhi)(包括nginx日志(zhi)(zhi)php日志(zhi)(zhi)等),可以(yi)采用EKL來收集管理,有異(yi)常日志(zhi)(zhi)告(gao)警。
運維(wei)人員都要(yao)接收(shou)告警郵(you)件和(he)(he)短(duan)信(xin),至少(shao)所(suo)負責的業(ye)務告警郵(you)件和(he)(he)短(duan)信(xin)必須接收(shou),運維(wei)經(jing)理接收(shou)重(zhong)要(yao)業(ye)務告警郵(you)件和(he)(he)短(duan)信(xin)。(除非是專職運維(wei)開(kai)發)
除服務(wu)器內部監(jian)(jian)控(kong)外,最好(hao)使用第三(san)方監(jian)(jian)控(kong),從外部監(jian)(jian)控(kong)業(ye)務(wu)是否正常(chang)(監(jian)(jian)控(kong)URL、端口等(deng)),比(bi)如:監(jian)(jian)控(kong)寶。
4、故障避免預防
網站WEB增加(jia)WAF,避免XSS跨(kua)站腳本、SQL注入、網頁掛(gua)馬等(deng)漏洞威脅。
程序代碼連接數據庫、memcache、redis等,可以使用域(yu)名(ming)(域(yu)名(ming)HOSTS指定IP),當(dang)出問題,有備用的服務(wu)器,就可以通過(guo)修(xiu)改DNS或者HOSTS,恢(hui)復服務(wu)。
建立應急預案(an)機制,定期演練(lian)事故場景,估(gu)算修(xiu)復時間(jian)。
部署(shu)蜜(mi)罐系統,防范企業和服務器內網APT攻擊。
建(jian)立雙活集群,包括業(ye)務(wu)服務(wu)的高可用,避(bi)免業(ye)務(wu)服務(wu)單(dan)點。
服務(wu)器集群(qun)采用跳板機或堡壘機登錄,避(bi)免(mian)服務(wu)器集群(qun)每臺(tai)服務(wu)器可以遠程連接管理。
操(cao)作(zuo)(zuo)重要(yao)業務升(sheng)級、遷移(yi)、擴容……之前,列一(yi)下操(cao)作(zuo)(zuo)步(bu)驟,越詳細越好,實際(ji)操(cao)作(zuo)(zuo)按步(bu)驟操(cao)作(zuo)(zuo),操(cao)作(zuo)(zuo)完(wan)做好記錄。
5、事中操作
網站WEB增加(jia)WAF,發現XSS、SQL注(zhu)入(ru)、網(wang)頁掛馬(ma)等(deng)攻擊,會(hui)自動攔截,并記錄日志。
檢查服務器(qi)數據備份是否(fou)可用(yong)。
在處理(li)需(xu)(xu)求(qiu)和(he)故障時(shi),執(zhi)行風險命令(比如rm、restart、reboot等)需(xu)(xu)再三確認,執(zhi)行命令前(qian),檢查所在服務器,所在服務器路徑,再執(zhi)行!
不(bu)要疲勞(lao)駕駛(shi),喝酒(jiu)不(bu)上(shang)(shang)機,上(shang)(shang)機不(bu)喝酒(jiu),尤其別動數據庫,避免在不(bu)清醒的(de)狀態下,在服務器上(shang)(shang)執(zhi)行了錯誤命(ming)令,導致數據丟失或業(ye)務故障。
在處(chu)理事故時,一定要(yao)考慮處(chu)理措施是否會引(yin)發連鎖故障(zhang),重要(yao)操(cao)作三思而行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能(neng)對全(quan)網(wang)進行安全(quan)策略集中管理。統一日志收集(ji)和分析(xi)。
備份及篡改恢復功能(neng),程序文(wen)(wen)件、圖片、數據文(wen)(wen)件、配置文(wen)(wen)件的備份,故障(zhang)回滾(gun)機制。
對攻(gong)擊(ji)日志進(jin)行(xing)深度分析(xi),展現攻(gong)擊(ji)路徑、攻(gong)擊(ji)源,協助管(guan)理員溯源。
踐行DevOps的無(wu)指(zhi)責文化,尤其(qi)是(shi)在做事故分析(xi)時。事故分析(xi)重(zhong)在定(ding)(ding)位(wei)原(yuan)因,制定(ding)(ding)改進(jin)措施(shi)。