一、服務器怎么運營?
檢查磁盤(pan)使用(yong)率,當磁盤(pan)使用(yong)率超過80%,可以(yi)清除(chu)一些日志文件(jian);
檢(jian)查(cha)(cha)內存(cun)使用(yong)情況(kuang),當內存(cun)使用(yong)過多時,需(xu)要檢(jian)查(cha)(cha)是哪個進程占用(yong),是否(fou)合(he)理(li);
檢(jian)查CPU使用(yong)情況,負(fu)載(zai)(zai)大小;當CPU使用(yong)過(guo)多(duo),負(fu)載(zai)(zai)過(guo)大時(shi),需要檢(jian)查是(shi)哪個進程占用(yong),是(shi)否合理。
檢查(cha)服務器網卡接口的數(shu)據統計和每秒收發(fa)包的個數(shu)和流量。
還需要結(jie)合服(fu)務器的(de)(de)業(ye)務,當然(ran),這些可用(yong)使用(yong)監控軟件自動檢查,故(gu)障(zhang)報警(jing)等,實時(shi)掌握服(fu)務器的(de)(de)運行情況。
二、服務器運營注意事項
1、提前檢查
服(fu)務(wu)器和網站漏洞檢(jian)測,對Web漏洞、弱口(kou)令、潛在的惡意行為(wei)、違(wei)法(fa)信息等進行定期(qi)掃描。
代碼的定期檢(jian)(jian)查,安全(quan)檢(jian)(jian)查,漏洞檢(jian)(jian)查。
服(fu)務(wu)器安(an)全加固(gu),安(an)全基線設(she)置,安(an)全基線檢查。
數(shu)據庫執(zhi)行的(de)命(ming)(ming)令,添加(jia)字段、加(jia)索引等,必(bi)須是經(jing)過測(ce)試檢查的(de)命(ming)(ming)令,才能在正式環境運(yun)行。
2、數據備份
服務器(qi)數據備(bei)(bei)份(fen)(fen),包括網站程序文(wen)件備(bei)(bei)份(fen)(fen),數據庫文(wen)件備(bei)(bei)份(fen)(fen)、配置(zhi)文(wen)件備(bei)(bei)份(fen)(fen),如有資(zi)源最好每小時備(bei)(bei)份(fen)(fen)和異地(di)備(bei)(bei)份(fen)(fen)。
建立五(wu)重(zhong)備(bei)份(fen)機制:常規(gui)備(bei)份(fen)、自動同步、LVM快照(zhao)、Azure備(bei)份(fen)、S3備(bei)份(fen)。
定期檢查(cha)備份(fen)文件是否可用,避免出(chu)故(gu)障后(hou),備份(fen)數據不可用。
重(zhong)要數據(ju)多重(zhong)加(jia)密(mi)算法加(jia)密(mi)處(chu)理。
程序文件版本控制,測試,發布,故障回滾。
3、安全監控
nagios監(jian)控(kong)服(fu)務器常規狀態CPU負(fu)載、內(nei)存(cun)、磁盤、流量,超過(guo)閾值告警。
zabbix或cacti監(jian)控(kong)服務器常規狀態(tai)CPU負(fu)載(zai)、內存(cun)、磁盤、流量等狀態(tai),可(ke)以顯示歷史曲(qu)線(xian),方便排查問題(ti)。
監控服務(wu)器SSH登錄記錄、iptables狀態、進程狀態,有(you)異(yi)常記錄告警。
監控網站WEB日志(包括(kuo)nginx日志php日志等),可以采用EKL來收集管理,有異(yi)常日志告警。
運(yun)(yun)(yun)維人(ren)員都要(yao)接(jie)(jie)收告警(jing)(jing)郵(you)件(jian)和短(duan)信(xin),至少所負責的業(ye)務告警(jing)(jing)郵(you)件(jian)和短(duan)信(xin)必須接(jie)(jie)收,運(yun)(yun)(yun)維經理接(jie)(jie)收重要(yao)業(ye)務告警(jing)(jing)郵(you)件(jian)和短(duan)信(xin)。(除非(fei)是專職運(yun)(yun)(yun)維開發)
除服(fu)務器內部(bu)監控(kong)外(wai),最好使用第三(san)方(fang)監控(kong),從外(wai)部(bu)監控(kong)業(ye)務是否正常(監控(kong)URL、端(duan)口(kou)等),比如:監控(kong)寶(bao)。
4、故障避免預防
網(wang)站WEB增加WAF,避免XSS跨站腳(jiao)本、SQL注入(ru)、網(wang)頁掛馬等(deng)漏洞威(wei)脅。
程序代(dai)碼連接(jie)數據庫、memcache、redis等,可(ke)以使(shi)用(yong)域名(ming)(域名(ming)HOSTS指定IP),當出問題,有備用(yong)的服務(wu)器,就可(ke)以通過修改(gai)DNS或者HOSTS,恢復(fu)服務(wu)。
建立應急預案機(ji)制,定期演練事故場景,估算修復時間。
部(bu)署蜜罐系統,防范企業和服務(wu)器內網APT攻擊。
建立雙活集(ji)群,包括(kuo)業務服(fu)務的(de)高可(ke)用,避免業務服(fu)務單點。
服(fu)(fu)務器集群采用(yong)跳板機(ji)或堡壘機(ji)登錄,避免服(fu)(fu)務器集群每臺服(fu)(fu)務器可以遠程(cheng)連接(jie)管理。
操(cao)作(zuo)(zuo)重要(yao)業務(wu)升級、遷移(yi)、擴容……之前,列一下(xia)操(cao)作(zuo)(zuo)步驟(zou)(zou),越詳(xiang)細(xi)越好,實際操(cao)作(zuo)(zuo)按步驟(zou)(zou)操(cao)作(zuo)(zuo),操(cao)作(zuo)(zuo)完做好記錄。
5、事中操作
網站WEB增加(jia)WAF,發(fa)現XSS、SQL注入、網頁掛(gua)馬(ma)等攻擊(ji),會(hui)自(zi)動攔截(jie),并記錄日志。
檢(jian)查服務器數(shu)據(ju)備(bei)份(fen)是否可(ke)用。
在處理(li)需(xu)求和故(gu)障時,執(zhi)行(xing)(xing)風險命令(比如rm、restart、reboot等)需(xu)再三確認,執(zhi)行(xing)(xing)命令前,檢查所在服(fu)務器,所在服(fu)務器路徑,再執(zhi)行(xing)(xing)!
不(bu)(bu)要(yao)疲勞駕駛,喝酒(jiu)不(bu)(bu)上機(ji),上機(ji)不(bu)(bu)喝酒(jiu),尤(you)其別(bie)動數據庫,避(bi)免在不(bu)(bu)清醒的狀(zhuang)態(tai)下,在服(fu)務(wu)器上執(zhi)行了錯誤命令,導(dao)致數據丟失或業務(wu)故(gu)障。
在處(chu)理事故時,一定要考慮處(chu)理措(cuo)施是否會引(yin)發連鎖故障,重要操作三思而行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全網進行安全策略集中管理(li)。統一日(ri)志收(shou)集和分析。
備份(fen)及(ji)篡改(gai)恢復功能,程(cheng)序文(wen)件、圖片、數據文(wen)件、配置(zhi)文(wen)件的(de)備份(fen),故障回滾機制(zhi)。
對攻擊日志(zhi)進行深度分析,展現(xian)攻擊路徑(jing)、攻擊源(yuan),協助管理員(yuan)溯(su)源(yuan)。
踐行DevOps的無指責文化,尤(you)其是在做(zuo)事故分析時。事故分析重在定(ding)位原因,制定(ding)改進(jin)措(cuo)施。