一、服務器怎么運營?
檢查磁(ci)(ci)盤使(shi)用率(lv),當磁(ci)(ci)盤使(shi)用率(lv)超過(guo)80%,可(ke)以清除一(yi)些日(ri)志文件;
檢查(cha)內存使(shi)用情況(kuang),當內存使(shi)用過多時,需(xu)要檢查(cha)是哪個進程占用,是否合理;
檢查(cha)(cha)CPU使(shi)(shi)用情況(kuang),負載大小;當CPU使(shi)(shi)用過(guo)多(duo),負載過(guo)大時,需要檢查(cha)(cha)是哪個進(jin)程占用,是否(fou)合理。
檢查服(fu)務器網卡接口的(de)數據統計和每秒收發包的(de)個數和流(liu)量(liang)。
還需要結(jie)合服(fu)務器(qi)的(de)業務,當然,這些可(ke)用使用監控軟件自動(dong)檢(jian)查,故(gu)障報警等,實時掌握服(fu)務器(qi)的(de)運行情況(kuang)。
二、服務器運營注意事項
1、提前檢查
服務器和(he)網站漏洞(dong)檢測,對Web漏洞(dong)、弱口令、潛在的惡意行為、違法信息等進行定期掃描。
代碼的(de)定期檢(jian)查(cha),安全(quan)檢(jian)查(cha),漏洞檢(jian)查(cha)。
服務器(qi)安全(quan)加固(gu),安全(quan)基線設置,安全(quan)基線檢(jian)查。
數(shu)據(ju)庫執行(xing)的命令,添加(jia)字段、加(jia)索引等,必須是(shi)經(jing)過(guo)測試檢查(cha)的命令,才(cai)能在正式環境運行(xing)。
2、數據備份
服務器數據(ju)備份(fen),包括網站程序文件備份(fen),數據(ju)庫文件備份(fen)、配置文件備份(fen),如有資源最好(hao)每小時備份(fen)和(he)異地備份(fen)。
建立五重備(bei)(bei)份機制:常規備(bei)(bei)份、自動同步、LVM快照(zhao)、Azure備(bei)(bei)份、S3備(bei)(bei)份。
定期檢(jian)查備份文件是否可用(yong),避免出故障后,備份數據(ju)不(bu)可用(yong)。
重要數據多重加(jia)密算法加(jia)密處(chu)理。
程序文件版本(ben)控制,測試,發布,故(gu)障回滾(gun)。
3、安全監控
nagios監控服務器常規狀態CPU負(fu)載、內存(cun)、磁盤、流量,超過(guo)閾值(zhi)告警。
zabbix或cacti監控服務器常(chang)規狀態(tai)CPU負載、內存、磁盤、流量等狀態(tai),可以顯示歷(li)史曲線,方便排(pai)查問題。
監(jian)控服務器SSH登錄記錄、iptables狀態(tai)、進程狀態(tai),有異常記錄告(gao)警。
監控網站WEB日(ri)志(zhi)(包括nginx日(ri)志(zhi)php日(ri)志(zhi)等),可以采用EKL來收集管理,有異常日(ri)志(zhi)告警。
運維(wei)人(ren)員都要接收(shou)(shou)告(gao)(gao)警郵件和(he)短信,至少所負責(ze)的(de)業(ye)務告(gao)(gao)警郵件和(he)短信必(bi)須接收(shou)(shou),運維(wei)經理接收(shou)(shou)重要業(ye)務告(gao)(gao)警郵件和(he)短信。(除非(fei)是專(zhuan)職運維(wei)開發)
除服務器內部監(jian)控外(wai),最好使用第(di)三(san)方監(jian)控,從外(wai)部監(jian)控業務是否正常(監(jian)控URL、端口等),比如(ru):監(jian)控寶(bao)。
4、故障避免預防
網(wang)站WEB增加WAF,避免XSS跨站腳本、SQL注入、網(wang)頁掛馬等漏洞威(wei)脅。
程序(xu)代碼連接數據庫、memcache、redis等(deng),可(ke)以使用(yong)域(yu)名(域(yu)名HOSTS指定IP),當出問題,有(you)備用(yong)的(de)服(fu)(fu)務器,就可(ke)以通過修改DNS或者HOSTS,恢復服(fu)(fu)務。
建立應急預案機制,定期演練事故(gu)場景,估算修復時間。
部署蜜罐系統(tong),防范企業和服(fu)務器內網APT攻擊(ji)。
建立雙活集群(qun),包括業(ye)務(wu)服(fu)務(wu)的(de)高可用,避免業(ye)務(wu)服(fu)務(wu)單(dan)點。
服(fu)(fu)務器集(ji)群(qun)采用跳板機或堡壘機登錄(lu),避(bi)免服(fu)(fu)務器集(ji)群(qun)每臺服(fu)(fu)務器可以(yi)遠程連接管理。
操作重要業(ye)務升級、遷移、擴容……之前(qian),列(lie)一下操作步驟(zou),越(yue)詳細越(yue)好(hao)(hao),實(shi)際操作按步驟(zou)操作,操作完做好(hao)(hao)記錄。
5、事中操作
網站WEB增加WAF,發現XSS、SQL注入、網(wang)頁掛(gua)馬等(deng)攻(gong)擊,會自動攔(lan)截(jie),并記錄日志。
檢查(cha)服務器數據備份是否可用(yong)。
在(zai)處理需求和故障(zhang)時,執行(xing)風險(xian)命令(比如rm、restart、reboot等)需再三確認,執行(xing)命令前,檢查所在(zai)服(fu)務器,所在(zai)服(fu)務器路徑,再執行(xing)!
不(bu)要(yao)疲勞駕駛,喝酒不(bu)上機(ji),上機(ji)不(bu)喝酒,尤其別(bie)動數據(ju)(ju)庫,避免在(zai)不(bu)清醒的狀(zhuang)態下,在(zai)服(fu)務器上執行了錯誤命令,導(dao)致數據(ju)(ju)丟失或(huo)業務故障。
在處理(li)事(shi)故(gu)時,一(yi)定(ding)要考慮處理(li)措施是否(fou)會引發連鎖(suo)故(gu)障,重要操(cao)作三思而行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全網進(jin)行安(an)全策略集中(zhong)管理。統一(yi)日志收集和分(fen)析。
備份(fen)及篡改恢復功能,程(cheng)序文(wen)件(jian)(jian)(jian)、圖(tu)片、數據文(wen)件(jian)(jian)(jian)、配置(zhi)文(wen)件(jian)(jian)(jian)的備份(fen),故障(zhang)回滾機制。
對攻擊日志進行深度分析,展現(xian)攻擊路徑、攻擊源(yuan),協助管理員(yuan)溯(su)源(yuan)。
踐行DevOps的無指責文化,尤其(qi)是在做事故分析時。事故分析重在定位(wei)原因,制定改進措施。