目前,5G网络建设在中国正如火如荼开展,但在华为的GTAC(全球技术支持中心)无线GC(GSM&CDMA)产品族,有这么一群“老兵”,他们平均司龄12年,主要工作是维护2G无线网络产品。
这些看起来都走向生命周期末期的产品与网络,为什么还要维护?面对层出不穷的新技术、新机会,他们心中是否也曾起过波澜?今天,让我们走进他们的世界,一探究竟吧。
“网尽其用”,老网络的新用途
今天,共享单车,已经充斥在中国的大街小巷。但是,可能很多人想不到,支撑这些共享单车后面的网络,并不是5G,也不是4G,而是作为第二代无线通信的GSM网络。
共享单车对带宽、速率、时延要求不高,GSM网络有最广最深度的覆盖,更能满足随时随地启停的要求,且成本低。所以主流单车厂家都采用GPRS(通用分组无线系统)模块做通信基础,通过GPRS开锁或者“GPRS通信+蓝牙”辅助开锁。最初GSM是为语音业务而诞生的网络,是为人们通话服务的,现在却是“老网络碰上新应用”,于是乎,新的问题和需求便不断被催生出来。
共享单车海量应用
GPRS领域专家郭志宽回忆起刚开始接触这些场景的一幕幕,依然记忆犹新。
2019年2月3日,作为当天的热线责任人,郭志宽突然收到客户反馈共享单车开锁失败的用户投诉,一向对GPRS新场景问题敏感的他心想,随着共享单车数量的爆发式增长,这类问题后续可能越来越多,如果处理不及时,将影响庞大的共享单车应用群体出行便利性,容易引起消费者投诉,进而损害客户利益。
由于之前未处理过类似的问题,郭志宽还是花了半个来小时头脑风暴,好好梳理了问题处理思路:怎么界定问题?是共享单车本身还是网络侧的问题?如果是网络侧的问题,和无线网络的哪种制式相关?用户可能使用的是4G、5G网络,和2G有关联性吗?是不是同一类问题导致开不了锁?
带着这些疑问,他和一线、客户做了一次交流。
“单车厂家已经提供了开锁原理图,锁具的通信模块只有GPRS芯片,因此问题必然是和GSM网络相关,而同一辆单车在有的基站覆盖下可以开锁,有的基站覆盖下打不开锁,证明是和网络侧相关。”客户说。
客户也反过来质疑我们:“华为是不是对网络新动态研究不足,产品对这种新场景处理可靠性不够,导致概率性失败?”
客户的质疑无可辩驳,我们必须尽快定位根因,给客户一个可信的答复。
郭志宽主动联系一线,实际走访了多个投诉点,同时对多个单车投诉点所在基站的海量数据分析比对,逐步锁定了开锁问题的几种场景,并给出了网络调整策略:大量单车的集中摆放,频繁附着和接入,导致网络侧资源紧张,进而造成拥塞。结合单车业务接入频繁但并不长时间占用网络的特点,他制定了精确网络优化方案:降低PS业务信道资源和增加PS业务接入信道资源,该方案可以预留更多的接入资源保证大量单车接入网络。同时,由于海量单车入市时间不一致,厂家管理存在问题,导致大量单车欠费,进而无法开锁,团队建议客户提供欠费单车列表,交由厂家处理, 缴清欠费。这些方案在投诉点落地后,单车投诉问题大大缓解。
投诉问题处理后,郭志宽及时总结出一套适配共享单车等物联网场景的参数方案,同时提出3项产品维护测试改进,方便该类问题定位。当前共享单车场景的问题处理质量和处理效率快速提升,投诉点收敛明显。
从客户角度来看,客户希望网络能做到“网尽其用”,而由于GSM“广覆盖+低成本”的优势,除了共享单车,一些海量的物联网应用(如新能源汽车充电桩等)都选择依附于2G网络。据统计,当前在中国,就有超6亿的物联网设备承载在2G网络上,大量的新场景应用需求要求我们主动拥抱变化,做好物联网新场景和典型问题的精确适配,在新场景下满足客户需求。
老网络求助电话响起,业务恢复优先
2021年2月25日23:40,伴随着熟悉的“Welcome to join the conference”,夜班刚到岗10分钟的许晓明被拉入电话会议:“你好,我是M代表处,我们这有一台CDMA BSC6600停电恢复后打不了电话了,请帮我们看看,谢谢。”
BSC6600老平台?!有多少年都没受理过这里的CDMA问题了,许晓明飞快地在大脑中完成网络情况检索。没成想刚到岗就捡到“宝”了!
“影响多少动态用户?已做过什么恢复动作?要不要报事故?”接线后紧急恢复“X问”早已烂熟于心。
“几个农村站点,约200多个用户,客户没操作,要马上恢复。”不容多想,许晓明立即呼入CDMA专家张瑞等快速讨论,初步判断问题是由数据一致性异常或中心交换框某单板故障所致。
他迅速根据该故障场景恢复方案指引操作,可是问题竟毫无改善,软件版本是十一年前发布的,现场已无CDMA网络维护技能,临时割接站点效率低,脚本逻辑复杂容易出错,耗时长,风险太高。只剩最后一个方案:将机框连接到其他空闲端口进行业务转移。
但是,设备太老了,现场人员都没接触过。
“我不知道如何登录BAM(后台管理模块)服务器,数据下载不了。”阻塞在基本操作上,的确是意料之外。当下,最好的办法就是我们获得客户授权,远程接入,在线指导现场人员下载数据。“专家出马,一个顶俩”,张瑞快速协助一线下载数据,完成单板连线逻辑梳理,找出空闲端口,并制作相应脚本。但是端口逻辑复杂,要给本地员工解释清楚十分费力,与其反复解释如何连接,还不如直接画个图。
拔线,插线,执行脚本,随着现场操作执行,所有人屏住呼吸,目不转睛地盯着单板状态的变化。当看到第一块单板状态由红变绿时,紧张的气氛渐渐放松下来,5分钟后,所有单板加载完毕!
“客户反馈说用户可以打电话了,夸你们干得很好!”成就感瞬间爆棚,原来“网络虽老,宝刀不老”是这种滋味。
老产品进入生命周期的末期,很多小运营商会减少投资,而且随着一线和客户维护人员的流动,时间一长,老制式产品的维护技能就丢失了……这些都是维护老网的难点。但在一些欠发达地区,老产品仍发挥着它们的余热,坚挺地承载着通信的使命。对于这种突发的求助,尽管有各种客观上的困难,我们也不能有丝毫的倦怠,坚定落实“网络安全第一、业务恢复优先”的这种工作信念,并持续地传承下去。
老网虐我千百遍,我待老网如初恋
借用一位维护兄弟的话,搞网络维护工作,真是“越老越难”。一路走来,与问题为伍,与操作为伴,在一次次的“打怪”与改进中,我们的2G网络“老当益壮”,也给团队成员留下了一个个难忘的经历。
繁忙的春节是常态
2018年2月11日,农历腊月二十六,B国客户的二级ITR(问题到解决)管理升级的消息急匆匆地升到了GTAC。
“客户今天凌晨22套BSC(基站控制器)翻频后KPI(关键性能指标)恶化严重,将严重影响2月14日LTE商用发布会,客户CTO不断投诉。”一线描述着问题背景。
赵文文迅速启动攻关,通宵分析,结合现网干扰恶化场景给出相应的优化措施,并指导一线在凌晨五点全网实施。
但经过话务早高峰观察,KPI改善有限,一线的忍耐到了极限,很快问题升级!
攻关组紧急讨论,需要重新设计频率方案并实施。因此铁三角阵型迅速组建:翻频专家赵文文负责联系TMO(技术管理办公室)进行方案评审以及指导GSC(全球服务中心)制作翻频脚本;基站专家刘冬核查RRU的功率、频率冲突问题;性能专家卢新辉负责现网配置和话统分析,制定翻频后的KPI优化措施……大家充分发挥各自专业优势,紧密协同,各个环节无一差错,在客户要求的时间点完成了全部有问题BSC的相关操作,操作后KPI均达标,打消了客户疑虑。最终,客户使用GSM腾出的频段成功在该国实现了LTE首商用。
2月15日,除夕。PSE(产品支持工程师)卢新辉和往常一样早早来到了公司,这已经是他连续第三年在除夕夜值班过大年了。晚餐时间,部门安排一起吃年夜饭,然而刚刚落座,再熟悉不过的GTAC热线突然响起,互报姓名,又是B国!
“兄弟,除夕快乐。非常不好意思,我们有个非常紧急的问题需要GTAC兄弟支持,G客户今天也要上线LTE,但LTE设备激活失败,客户首商用LTE,十万火急,必须立即解决。”
他火急火燎吃上两口,就往办公室赶,这也算是年夜饭了吧。
路上便收到二级管理升级短信提醒,随后被一线呼入电话会议。等回到工位,对现网的频率方案、组网方案已基本摸清,并根据以往的问题处理经验大致明确了问题分析方向。随后,立即拉通LTE侧的兄弟启动线上分析,经过反复核对确认,发现是客户规划的GSM和LTE频率“打架”所致。
快速修改了LTE频率,但问题依然存在。来不及沮丧,重新梳理问题,仔细核对,发现部分频段配置又有问题,导致超过了设备的最大带宽支持能力,调整GSM频点后,业务终于恢复正常。
2018年的除夕夜,就这样过了。
这样的春节,是团队的常态。当国内万家团圆时,他们也许正经历着各种风暴的考验,让网络最后波澜不惊。也不仅仅是春节,一年365天,7X24小时,每一分钟都需要在线,没有惊天动地创举,只有默默无闻的坚守。
20年一次的GPS翻转保障
2019年2月,王大峰接到部门通知:“GPS(全球卫星定位系统)卫星近期将要翻转,GSM网上存量最大,请主导无线保障!”放下电话,一连串的疑问浮现在脑海中:为什么翻转?跟无线有啥关系?有啥影响?……
根据维护业务中“字越少,事越大”定律,任务显得紧急而神秘。
他快速查询资料了解情况,原来GPS周计数器位数有限,自1980年投入使用以来,19.7年会归零一次,2019年4月7日07:59:42将迎来第二次归零翻转,翻转后,GPS时间将初始化到上次翻转的时间1999年8月22日,所有同步GPS的网络设备时间也将初始化。
天呐!无线存量有几百万站,如果网元时间回退19.7年,license(许可证)期限怎么办?会不会影响同步,导致批量断站?
绝不能让这样的问题发生!
GTAC无线随即成立KEA(重大事件保障)项目组,提出“零中断、零投诉、无感知”的目标,王大峰担任保障组长。干维护岗位那么多年,他第一次感觉压力山大:如何预测翻转后可能出现的所有风险场景?如何提前执行风险清理方案?如何制定紧急恢复预案?
经过多轮讨论,项目制定了“三步走”的策略:
第一步:联合研发搭建镜像实验室,全场景验证时间翻转后风险;
第二步:根据测试排查风险项,制定规避方案,快速下发到现网;
第三步:一旦预案被击穿,确保及时恢复业务的应急手段。
经过连续60多天的努力,无线整体识别风险43项,执行规避方案28个,进入翻转保障倒计时。
测试组怀着“不希望测出问题,但又希望测出问题”的矛盾心情,持续测试,生怕漏掉任何一个未知风险。
4月4日,翻转前三天,测试组突然传来消息,发现新风险场景:控制器OMU(操作维护单元)系统时间将会跳转到2000年1月1日,导致某业务无法登录!所有人一下子紧张起来,迅速集结,讨论和制定规避预案并验证有效,在当日凌晨刷新了第N版《GTAC无线GPS翻转恢复预案》操作指导书……
4月7日,大家集中在作战室,屏住呼吸等待翻转时刻的到来,随时响应一线热线,并30分钟通报一次网上表现。截止到中午12点,除了有一个局点上报10个站点突发时钟源告警外,全球几百万的无线网络平稳渡过20年一次的GPS时钟翻转,数以亿级的终端用户完全没有受到本次翻转的影响。我们实现了既定目标,真正做到了“零中断、零投诉、无感知”。
那一刻,没有欢呼雀跃,但从大家的眼神中能看到,作为维护专家的自豪和重大事件保障后的如释重负!
老网被高制式“误伤”
2020年6月的一天上午,王路接到Y国一线的热线,客户投诉多个GSM VIP小区出现无话务问题,要求立刻解决。
站点都是GSM<E多模站点,升级后LTE正常,但GSM有问题,初步判断应该是内部出现异常,需要基站日志等详细信息进行定位。还没等展开进一步排查,代表处领导上线了,“这是VIP区域,很快可能上升到客户高层了!需要尽快恢复业务!”
“对问题小区设备远程掉电复位。”果然,进行掉电复位后,GSM小区业务恢复了。按此方法,陆续恢复所有问题GSM小区。
但问题的根因是什么呢?很快,我们拿到日志。按理日志应该很快能找到异常点,但出乎意料的是,排查所有日志,均无异常记录。
“难道是这个新升级的基站版本在GSM侧新引入了什么问题?”我们找研发确认,但发现该补丁GSM侧没有任何变化,只有LTE侧有改动。这就奇怪了,没有合入任何代码的GSM反而出了问题?
问题分析毫无头绪,只能通过在实验室完全镜像现网站点。我们通过无数次尝试,最终定位:新版本内存调度异常,LTE占用了内存区域,导致GSM侧读取内存失败,属于误伤。
目前4/5G网络逐步占据了主流应用地位,全球很多地方无线产品“四世同堂”,新的制式引入,带来了更多的需求和特性,也带来更多的代码变更和问题,共模场景下高制式操作影响GSM的情况越来越多。而此类问题往往缺少成熟的维测手段,对定位和恢复问题都存在严峻挑战。在没有有效的、彻底的解决方案之前,新网要上,老网也要能运行下去,就需要我们这些“老兵”不断推动研发实施制式间代码隔离,阻断制式间的影响,同时增强针对这类问题的维护测试,增强问题定界和定位效率,共同应对这一新场景的挑战。
“老网虐我千百遍,我待老网如初恋”。对于我们这些老兵来说,看护着这些“老网”,每每出现意想不到的新问题,唯有沉下心来,细细琢磨老朋友到底哪里又不高兴了,去找到问题的症结所在,让它重新焕发青春。
网络会老,老兵不老
2020年的一次民主生活会上,团队讨论如何强身健体,团队跑步老将分享了自己的跑步心得和收获:“随着年龄的增长,为工作奋斗,为生活奔波,传说中的中年危机如期而至。我开始了跑步,后来逐渐爱上了这项运动。坚持了几年,参与过各种马拉松、越野跑、健康跑,从一个跑步门外汉到深度热爱者。我们负责的产品进入了生命周期的中后期,老产品的维护就像跑马拉松,网络就像我们的身体一样,要让网络健壮,我们自己先不能倒下。有些网上问题,确实是我在跑步的时候想到的思路,不信大家可以试试!”
一番话,引起了大家的共鸣,团队后来策划了“GC趣味跑”活动,在老将的带领下,大家激情高涨,公园、园区、小区、大街上……留下了大家挥汗如雨的身影,3个月的活动结束后,跑步逐渐成了大家的爱好,支撑大家以健康的体魄投入到工作中去。
GC成员跑步轨迹
目前,在这场老产品的“维护马拉松”中,团队当前保留18人,号称“GC十八罗汉”。结合GTAC小众产品策略,团队实施了白名单管理:识别CDMA专家2名、事故恢复专家2名、GPRS业务专家1名、性能优化专家2名,留住老产品的“根”。同时,大家也在积极主动学习新技术,全员掌握GSM<E CloudAIR新特性、欧拉系统新方案、GSM和高制式的网络协同等,跟上新时代,做一个拥抱变化的老兵。
网络会老,老兵不老,当前团队成员队伍稳定,斗志昂扬,用实践证明着坚守网上百万老旧存量维护事业的决心。2021年春节期间,全员参与了值班保障,确保问题清理不停歇,问题清理率达成挑战。
GSM&CDMA作为无线通信的“打底”网,庞大的网上存量会产生非常多的新场景,需要我们在受理一线问题的同时,保持开放的心态,主动思考,充分利用GTAC天然的 “网络触角”优势,担起二线承上启下的职责,不断推动方案优化和维护能力提升,在作业质量和效率上深耕,坚持跑完GSM&CDMA维护的马拉松,这是一份责任,也是信念。