这章节主要是介绍夜莺的功能使用,各模块的功能说明以及使用方法
功能模块 V3.4.1
用户资源模块(rdb):是整个平台的权限基座,以及服务树挂载服务器的位置;原来2.0版本里的各种sender也集成到了这个模块,所以各类告警目标的设置也是在这里进行配置;
资产中心(ams):目前开源出来的只有简单的资源显示,客户端加入后,需要先在资产中心去绑定租户;
任务执行中心(job):任务执行中心,可以执行各类shell/python/perl脚本,根据服务树来设置执行范围,个人感觉日常运维够用;
监控告警系统:这个是夜莺的精髓,2.0版本也只有这个模块,上面三个都是3.0以后新开源出来的,旨在打造一个运维平台;这部分支持监控查看,监控大盘,各类采集的配置,以及各项告警策略的配置;
用户资源中心
主要有三个功能:服务树,权限管理,告警角色/团队配置
服务树:节点和叶子节点
- 节点:是根据各个公司自己的规则来进行设计,类别可分为租户、资源、项目、组织、模块、集群,现在集群是有设置一个默认租户,小团队一般不用改租户,直接在下面创建节点就好,服务树这个功能还是比较好用的;

注意:资源权限可根据设计挂在某个父节点,则可拥有父节点下的子节点的相关权限
- 子节点:终端挂载的具体节点,且终端只能挂载在叶子节点下;挂载以后,就可以看到该节点的机器,如下图

注意:夜莺是需要先在资产管理系统给机器分配租户以后,才能在用户资源中心挂载,否则是无法识别到的;
挂载方式有两种:一种是在节点下,点击右上角的批量操作进行挂载;一种是在左侧的【游离资源】处进行挂载
角色管理(用户权限):资源角色和页面角色
- 资源角色:主要是针对各节点来进行管理,设置好资源角色权限后,就可以在具体节点挂载用户时选择。例如,A用户负责夜莺集群的运维,那就可以直接把用户挂载在夜莺的节点下即可;


- 页面权限:页面权限主要是给资产管理页面的相关权限,开源版本没有开放太多功能,自己看着用就好;

告警邮箱设置和im设置
- 夜莺告警支持多种形式,邮件、IM、短信、电话等,2.X版本都需要单独部署各自的sender,但是3.x版本都集成在了这个模块;
- 邮箱收件人、IM收件人都是针对独立用户设置,在创建用户的时候设置相关手机号,token,邮箱;
- 夜莺告警支持个人告警和团队告警,这个会在后续的告警策略配置里详细说明;
设置步骤:
–邮件:直接在“用户资源中心”左下角的SMTP配置即可;(#内网记着申请访问权限)
–IM,SMS等告警:
1,需要在etc/rdb.yml下的sender进行配置;
2,IM支持多种类型,常用的就是企微robot, 钉钉rebot, 这里的wechat指的是原来的企业号通知,能够直接通知到微信,但是目前这个功能企微已经不再更新,所以不建议使用;
3,在N9E网页端设置各个用户的token和邮箱信息;
4,在告警策略里设置告警策略和告警接收人;
以上步骤设置完以后,就能够正常接收告警通知啦~(注意网络是否可达)
资产管理系统
开源版这部分功能较弱,大家用一用就会了,我就不在这里赘述;
任务执行中心
开源出来的任务执行中心按作者的话说就是开源了一个通道出来,能够支持各种类型的脚本执行,类似ansible的一个小功能,体验下来还是不错的,日常巡检跑个脚本啥的够用
监控告警系统
这个才是夜莺的精髓,监控告警部分;夜莺3.5以后的版本已经集成了部分应用监控的功能(Prober模块,是从telegraf改的),体验下来,感觉还是有需要完善的地方,不过够用
监控看图

只要是挂载到叶子节点下的机器,都能够看到相应的采集指标,默认采集的有100多项指标,自己可以通过内置的插件进行服务器[端口][进程][日志]等指标的采集,这些在后续再专门写一章。
监控大盘


–这个功能够用,个人感觉比zabbix的画图要友好很多,支持饼图,数值等显示方式;
–目前内置了一些大盘,还支持大盘导出导入功能,和grafana差不多,等社区活跃一些相信大盘直接下载就可以了。
告警策略

告警策略才是重点,夜莺支持告警分级及告警升级和告警屏蔽,这些功能在日常使用里会感觉非常友好;
这里注意,二三级告警是可以告警合并的,一级告警是触发了就通知;
告警策略可结合任务执行中心里的脚本来实现告警自愈,这里设置的时候还是设计好规则,否则一些日常服务更新的nodata也会触发告警策略和回调;
部署客户端
生产环境开放服务端端口
测试环境的话直接把防火墙关了就好;
systemctl stop firewalld
systemctl disable firewalld
生产环境的话,其实大部分公司搭都是单节点服务端,所以对于单节点服务端来说,只需要暴露agent访问的transfer, ams, job的端口用于agent调用即可;
对于集群部署,就看具体设计来,我搭过一次服务端全部三节点的情况,使用效果还是可以的,除了需要在address.yml里增加ip,tsdb集群还需要修改transfer.yml里面的tsdm_cluster地址;集群部署以后专门弄一篇专栏;
部署客户端
部署客户端很简单,只需要把n9e-agent二进制和etc里的address.yml,agent.yml,identity,yml打包好就行;怕挂掉的话,这里还提供了service文件用于systemd托管用,下面举个例:
#这里注意一定要提前同步好时间,ntpdate -u ntp.aliyun.com
[root@dispatching-test n9e]# pwd
/home/n9e
[root@n9e n9e]# tree
.
├── etc
│ ├── address.yml
│ ├── agent.service
│ ├── agent.yml
│ └── identity.yml
└── n9e-agent
[root@n9e n9e]# cat etc/address.yml
---
ams:
http: 0.0.0.0:8002
addresses:
- 10.150.5.94 #注意修改自己的服务器ip
job:
http: 0.0.0.0:8004
rpc: 0.0.0.0:8005
addresses:
- 10.150.5.94 #注意修改自己的服务器ip
transfer:
http: 0.0.0.0:8008
rpc: 0.0.0.0:8009
addresses:
- 10.150.5.94 #注意修改自己的服务器ip
agent:
http: 0.0.0.0:2080
[root@n9e n9e]# mv etc/agent.service /usr/lib/systemd/system/agent.service
[root@n9e n9e]# systemctl start agent
[root@n9e n9e]# systemctl enable agent
Created symlink from /etc/systemd/system/multi-user.target.wants/agent.service to /usr/lib/systemd/system/agent.service.
[root@n9e n9e]# systemctl status agent
● agent.service - n9e agent
Loaded: loaded (/usr/lib/systemd/system/agent.service; enabled; vendor preset: disabled)
Active: active (running) since 一 2020-12-14 16:57:14 CST; 2 months 9 days ago
Main PID: 1265 (n9e-agent)
CGroup: /system.slice/agent.service
└─1265 /home/n9e/n9e-agent
12月 14 16:57:14 n9e systemd[1]: Started n9e agent.
12月 14 16:57:14 n9e n9e-agent[1265]: runner.cwd: /home/n9e
12月 14 16:57:14 n9e n9e-agent[1265]: runner.hostname: n9e
12月 14 16:57:15 n9e n9e-agent[1265]: identity: xxx.xxx.xxx.xxx
12月 14 16:57:15 n9e n9e-agent[1265]: 2020/12/14 16:57:15 funcs.go:20....
12月 14 16:57:15 n9e n9e-agent[1265]: http.listening: 0.0.0.0:2080
Hint: Some lines were ellipsized, use -l to show in full.
agent跑起来以后,需要在【资产管理中心】挂载到租户下,然后就可以在【用户资源中心】的游离资源里看到了,注意endpoint只能挂载到叶子节点下,在新建服务树的时候注意;

导航: Nightingale滴滴夜莺监控系统入门(一)–夜莺简介
导航: Nightingale滴滴夜莺监控系统入门(二)–单机部署夜莺
导航: Nightingale滴滴夜莺监控系统入门(四)–聊聊夜莺的后端储存
导航: Nightingale滴滴夜莺监控系统入门(五)–采集功能
本文介绍了Nightingale监控系统的各个功能模块,包括用户资源中心、资产管理系统、任务执行中心和监控告警系统。用户资源中心提供服务树、权限管理和告警配置;资产中心用于资源显示和绑定;任务执行中心支持脚本执行;监控告警系统包含监控看图、大盘和告警策略。此外,文章还涉及了客户端部署和告警通知的配置方法。
--页面功能说明&spm=1001.2101.3001.5002&articleId=111309901&d=1&t=3&u=d78de25b44ed4b32a6ba032ff1106ee3)
1467

被折叠的 条评论
为什么被折叠?



