一、服務器怎么運營?
檢查磁(ci)盤使(shi)用率,當磁(ci)盤使(shi)用率超過80%,可以清除一(yi)些日志文件;
檢查(cha)內存使(shi)用情況,當內存使(shi)用過多時,需要檢查(cha)是哪個進程占用,是否合理;
檢(jian)查CPU使用(yong)情(qing)況,負載(zai)大(da)小;當CPU使用(yong)過(guo)(guo)多,負載(zai)過(guo)(guo)大(da)時,需(xu)要(yao)檢(jian)查是哪個進程占用(yong),是否合理。
檢查服務器網卡接口的(de)數據統計和每(mei)秒收發包的(de)個數和流量。
還(huan)需(xu)要(yao)結合服務(wu)(wu)器的(de)業務(wu)(wu),當然,這些可用(yong)使用(yong)監控軟件自動檢查(cha),故障報(bao)警等,實時(shi)掌握服務(wu)(wu)器的(de)運行(xing)情況(kuang)。
二、服務器運營注意事項
1、提前檢查
服務器(qi)和(he)網站漏(lou)洞檢測,對Web漏(lou)洞、弱口令、潛在的惡意行(xing)(xing)為(wei)、違法(fa)信息等進行(xing)(xing)定期掃描。
代碼的(de)定期(qi)檢查,安全檢查,漏(lou)洞檢查。
服(fu)務(wu)器安全加固,安全基(ji)(ji)線(xian)設置,安全基(ji)(ji)線(xian)檢查。
數據庫執行的命(ming)令,添(tian)加字(zi)段、加索(suo)引等,必須是(shi)經過測試檢查的命(ming)令,才能在正(zheng)式環境運行。
2、數據備份
服務(wu)器(qi)數據備(bei)份(fen),包括網站程序文件(jian)備(bei)份(fen),數據庫(ku)文件(jian)備(bei)份(fen)、配置文件(jian)備(bei)份(fen),如有資源最好每(mei)小(xiao)時備(bei)份(fen)和異地(di)備(bei)份(fen)。
建立五重(zhong)備份(fen)機制(zhi):常規備份(fen)、自動同(tong)步(bu)、LVM快照、Azure備份(fen)、S3備份(fen)。
定(ding)期檢查備份(fen)文件是否(fou)可(ke)用,避(bi)免出(chu)故障后,備份(fen)數據(ju)不可(ke)用。
重要(yao)數據(ju)多重加密(mi)算(suan)法加密(mi)處理。
程序文件(jian)版本控制,測試,發布(bu),故障回(hui)滾。
3、安全監控
nagios監控服務器常規(gui)狀態CPU負載、內存、磁盤、流量,超過閾值告警(jing)。
zabbix或cacti監控(kong)服務器常規(gui)狀態(tai)CPU負載(zai)、內存、磁盤、流(liu)量等狀態(tai),可以顯示歷史(shi)曲線,方便排查問題。
監控服(fu)務器SSH登錄記(ji)(ji)錄、iptables狀態、進程狀態,有異常記(ji)(ji)錄告警。
監控網站WEB日志(zhi)(包括(kuo)nginx日志(zhi)php日志(zhi)等),可以采用EKL來收集管(guan)理,有異常日志(zhi)告警。
運(yun)維人(ren)員都(dou)要接收告警(jing)郵件(jian)和短信,至少所負責的業(ye)務告警(jing)郵件(jian)和短信必須(xu)接收,運(yun)維經理接收重要業(ye)務告警(jing)郵件(jian)和短信。(除非是專職(zhi)運(yun)維開發)
除服務器內部監控(kong)(kong)外,最好使用第(di)三方監控(kong)(kong),從外部監控(kong)(kong)業務是否正常(監控(kong)(kong)URL、端口等),比如:監控(kong)(kong)寶(bao)。
4、故障避免預防
網站(zhan)WEB增加(jia)WAF,避(bi)免XSS跨站(zhan)腳本、SQL注入、網頁掛(gua)馬等漏(lou)洞(dong)威脅。
程序代(dai)碼連接數據庫、memcache、redis等,可(ke)以使用(yong)域名(域名HOSTS指(zhi)定IP),當出問題(ti),有(you)備(bei)用(yong)的(de)服務(wu)器,就可(ke)以通(tong)過修改DNS或者HOSTS,恢復服務(wu)。
建立應(ying)急預案機制,定(ding)期演練(lian)事故場景,估算修復(fu)時間。
部署(shu)蜜(mi)罐系(xi)統,防范(fan)企業和(he)服(fu)務器內網APT攻擊。
建(jian)立雙活集群,包括業務(wu)服務(wu)的(de)高(gao)可用,避免業務(wu)服務(wu)單點。
服(fu)務器(qi)(qi)集群采用跳(tiao)板機或(huo)堡壘機登錄(lu),避(bi)免服(fu)務器(qi)(qi)集群每臺服(fu)務器(qi)(qi)可以遠程連接管(guan)理。
操作重(zhong)要業(ye)務(wu)升級、遷移(yi)、擴容(rong)……之前,列一(yi)下(xia)操作步(bu)驟,越(yue)(yue)詳(xiang)細越(yue)(yue)好,實(shi)際(ji)操作按步(bu)驟操作,操作完做好記錄。
5、事中操作
網站WEB增加(jia)WAF,發(fa)現XSS、SQL注入、網頁掛馬等攻擊(ji),會自動攔截,并記錄日志(zhi)。
檢(jian)查服(fu)務(wu)器數據備(bei)份是否可用。
在(zai)(zai)(zai)處理需求和故障時,執行風險命令(比如(ru)rm、restart、reboot等)需再三(san)確(que)認(ren),執行命令前,檢查所在(zai)(zai)(zai)服務器,所在(zai)(zai)(zai)服務器路徑,再執行!
不(bu)要疲勞駕駛,喝(he)(he)酒不(bu)上機(ji),上機(ji)不(bu)喝(he)(he)酒,尤(you)其別動(dong)數據(ju)(ju)庫,避免在(zai)不(bu)清醒的狀態下,在(zai)服務(wu)器(qi)上執行了錯誤命(ming)令,導致數據(ju)(ju)丟失或業務(wu)故障。
在處理事故時,一定要考慮處理措(cuo)施是否(fou)會引發連鎖故障,重要操作(zuo)三思而(er)行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全網(wang)進行安(an)全策略集中管理。統(tong)一日志收集和分(fen)析。
備份及篡(cuan)改恢(hui)復功能,程序文件(jian)、圖片、數(shu)據文件(jian)、配置文件(jian)的備份,故障回滾機制。
對攻擊日志進行深(shen)度分析,展(zhan)現攻擊路徑、攻擊源,協(xie)助管理員溯源。
踐行DevOps的無指(zhi)責(ze)文化,尤(you)其是(shi)在做事故(gu)分析時。事故(gu)分析重在定(ding)(ding)位原因,制定(ding)(ding)改進措施。