一、服務器怎么運營?
檢查磁(ci)盤(pan)(pan)使(shi)用(yong)率,當(dang)磁(ci)盤(pan)(pan)使(shi)用(yong)率超(chao)過80%,可以清除一些日志(zhi)文件;
檢(jian)查(cha)內(nei)(nei)存使用情況,當內(nei)(nei)存使用過多時,需要檢(jian)查(cha)是哪個進程占用,是否合(he)理;
檢查CPU使用情況,負載(zai)大小(xiao);當CPU使用過多,負載(zai)過大時,需要檢查是(shi)(shi)哪個進程占用,是(shi)(shi)否合(he)理。
檢(jian)查服務器網(wang)卡接口(kou)的數據統計(ji)和每秒收發包(bao)的個數和流量。
還需要結合服務(wu)器的業務(wu),當然,這(zhe)些可(ke)用(yong)使(shi)用(yong)監(jian)控軟件自動檢查,故(gu)障報警等,實時掌握服務(wu)器的運行情況。
二、服務器運營注意事項
1、提前檢查
服務器(qi)和網站漏(lou)洞檢(jian)測,對(dui)Web漏(lou)洞、弱口(kou)令(ling)、潛在的惡意行為、違法信(xin)息等進行定期掃描。
代碼的定期檢查(cha),安全檢查(cha),漏洞檢查(cha)。
服務器(qi)安全加(jia)固,安全基線設置,安全基線檢(jian)查。
數據庫執行(xing)的(de)命令,添加(jia)字段、加(jia)索引等(deng),必須(xu)是經(jing)過測試檢(jian)查的(de)命令,才(cai)能在(zai)正式環(huan)境運行(xing)。
2、數據備份
服務器數(shu)據(ju)備份(fen)(fen),包(bao)括網站(zhan)程序(xu)文(wen)件(jian)備份(fen)(fen),數(shu)據(ju)庫(ku)文(wen)件(jian)備份(fen)(fen)、配置文(wen)件(jian)備份(fen)(fen),如(ru)有(you)資(zi)源最好每(mei)小時備份(fen)(fen)和(he)異地(di)備份(fen)(fen)。
建立五重備(bei)份(fen)(fen)機制:常(chang)規備(bei)份(fen)(fen)、自動同步、LVM快照、Azure備(bei)份(fen)(fen)、S3備(bei)份(fen)(fen)。
定期檢查(cha)備份(fen)文件是否可用(yong),避(bi)免出故障后,備份(fen)數據不可用(yong)。
重要(yao)數據多重加密(mi)算法加密(mi)處理。
程序文(wen)件(jian)版(ban)本控制(zhi),測試,發布,故障回滾。
3、安全監控
nagios監控服務器(qi)常規狀態CPU負載(zai)、內存、磁盤、流量(liang),超(chao)過閾值告(gao)警(jing)。
zabbix或cacti監控(kong)服務(wu)器(qi)常規狀(zhuang)態(tai)CPU負載、內存、磁盤、流量(liang)等狀(zhuang)態(tai),可以顯示歷史(shi)曲線,方便排查(cha)問題(ti)。
監控(kong)服(fu)務器SSH登錄記(ji)錄、iptables狀(zhuang)態(tai)、進程狀(zhuang)態(tai),有異常(chang)記(ji)錄告警。
監控(kong)網(wang)站(zhan)WEB日志(包(bao)括nginx日志php日志等),可以采用(yong)EKL來收(shou)集(ji)管理,有異(yi)常日志告(gao)警。
運(yun)維人(ren)員都要接(jie)(jie)(jie)收(shou)告(gao)警(jing)郵(you)(you)件(jian)和短(duan)(duan)信,至少所負責(ze)的業務(wu)告(gao)警(jing)郵(you)(you)件(jian)和短(duan)(duan)信必須接(jie)(jie)(jie)收(shou),運(yun)維經理接(jie)(jie)(jie)收(shou)重要業務(wu)告(gao)警(jing)郵(you)(you)件(jian)和短(duan)(duan)信。(除非是專職運(yun)維開發)
除服務器內部監控(kong)外(wai),最(zui)好(hao)使用第三方(fang)監控(kong),從外(wai)部監控(kong)業(ye)務是否正常(監控(kong)URL、端口(kou)等),比如:監控(kong)寶。
4、故障避免預防
網站(zhan)(zhan)WEB增加WAF,避免XSS跨站(zhan)(zhan)腳本、SQL注入(ru)、網頁(ye)掛馬等漏(lou)洞威脅(xie)。
程序代(dai)碼連接數據庫、memcache、redis等,可(ke)以使用(yong)域(yu)名(域(yu)名HOSTS指(zhi)定IP),當出問題,有備用(yong)的服務器,就可(ke)以通過修改DNS或者HOSTS,恢復(fu)服務。
建(jian)立應急預案(an)機(ji)制,定期演練(lian)事故場景,估算修復時間。
部署蜜罐系(xi)統,防范企業和服務(wu)器內網APT攻擊。
建立雙活集群,包括業(ye)務(wu)服(fu)務(wu)的(de)高可用,避免業(ye)務(wu)服(fu)務(wu)單點。
服務(wu)器(qi)集群采用跳板機(ji)或(huo)堡壘(lei)機(ji)登錄,避免服務(wu)器(qi)集群每臺服務(wu)器(qi)可(ke)以遠程(cheng)連接(jie)管理。
操(cao)作重要業(ye)務升級(ji)、遷移、擴容(rong)……之前(qian),列一下操(cao)作步驟,越詳細越好,實際操(cao)作按步驟操(cao)作,操(cao)作完(wan)做(zuo)好記錄。
5、事中操作
網站WEB增(zeng)加WAF,發現(xian)XSS、SQL注入(ru)、網(wang)頁(ye)掛馬等攻(gong)擊(ji),會自(zi)動攔(lan)截,并記錄日志。
檢查服務器(qi)數據備份是否可用。
在(zai)處(chu)理需求和(he)故障(zhang)時,執(zhi)行風險命(ming)令(比如rm、restart、reboot等)需再三(san)確認,執(zhi)行命(ming)令前,檢查所(suo)(suo)在(zai)服(fu)(fu)務器,所(suo)(suo)在(zai)服(fu)(fu)務器路(lu)徑,再執(zhi)行!
不要疲(pi)勞駕駛(shi),喝(he)酒不上機,上機不喝(he)酒,尤(you)其別動數據(ju)庫(ku),避免在不清(qing)醒的狀態下(xia),在服(fu)務(wu)器上執行了錯誤命(ming)令,導致數據(ju)丟失(shi)或業務(wu)故障(zhang)。
在(zai)處理(li)事故時,一定要(yao)考慮處理(li)措施是否會(hui)引發連鎖(suo)故障,重要(yao)操(cao)作三思而行(xing)。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能(neng)對全(quan)網進(jin)行安全(quan)策略集中管(guan)理。統一(yi)日志收集和分(fen)析。
備份(fen)及篡(cuan)改恢(hui)復(fu)功能,程序文件、圖片、數據文件、配(pei)置文件的(de)備份(fen),故(gu)障回滾機制。
對攻擊(ji)日(ri)志進行深度分析(xi),展現(xian)攻擊(ji)路徑(jing)、攻擊(ji)源,協助(zhu)管理員溯源。
踐行DevOps的無指責文化,尤其(qi)是在(zai)做事(shi)(shi)故(gu)分(fen)析(xi)(xi)時。事(shi)(shi)故(gu)分(fen)析(xi)(xi)重在(zai)定位原因,制定改(gai)進措(cuo)施。