工业控制和自动化设备故障排除指南

有效的故障排除是技术人员的核心能力。有些人声称这是一种与生俱来的技能,用于识别问题并进行修复。对其他人来说,这是一种超能力;有些人天生就具备修复复杂系统的能力,例如图1中所示的基于可编程逻辑控制器(PLC)的系统。

很公平。

然而,根据我的经验,电气和电子系统的故障排除是一种可以教授的技能。事实上,它已经被传授给了一代又一代的军事技术人员,其中一些人可能就在你的设施中工作。军队与你的行业相似,因为非常需要能够快速恢复设备运行状态的技术人员。

1 :部分完成的PLC培训设备的图片,展示了施耐德Modicon PLC和人机界面(HMI)。

安全

我们必须从安全开始,因为看似无害的系统对生命和肢体都是危险的。技术人员可能会触电、窒息、溺水、被碾压、有皮外伤、被缠绕、失明、感染霍乱、肺部塌陷、电弧和爆炸烧伤,以及其他一百种不幸的事情。

对安全的全面探讨超出了本文的范围。相反,我们将提到一些总体思路:

  • 遵循锁定/挂牌(LOTO)程序,确保设备在电气、机械、气动和液压方面安全。

  • 理解并遵守所有联邦和州法规,包括职业安全与健康标准(OSHA)。

  • 遵守雇主的安全规定。积极参与培训计划也是一个好主意。如果你的雇主没有为技术人员制定书面的安全规定,花时间研究并自己编写。

  • 根据任务需要,使用适当的个人防护装备(PPE)。

  • 与伙伴一起工作。

  • 摘掉所有手表、戒指和其他导电金属物品。防止长发、领带或挂在脖子上的员工证等物品被缠绕。

  • 特别要注意自满情绪。即使是一个安全文化,当你愚蠢地将个人安全委托给他人时,也可能变得危险。没有人比你更关心你的人身安全。此外,你很有可能是工厂中少数能够识别和理解相关安全风险的人之一。

你,作为技术人员,有责任确保自己和他人的安全

技术提示 :在服务面板中工作时要非常小心,尤其是在电气安全联锁被绕过的情况下。一旦激活,你将暴露在致命的高电压下。灾难可能在一瞬间的自满中发生。明确书写的安全政策和严格执行对于技术人员和操作员的安全至关重要。

海军六步故障排除法

正如下面“关于作者”部分所述,我曾在美国服役。海岸警卫队总共服役了27年。我的成长岁月是作为一名技术兵度过的,而后半段则是作为一名军官。这段背景提供了独特的视角,因为我曾担任过技术人员、主管和教育者等多种角色。

海军六步故障排除程序是一种有效的故障排除技术。该程序在《海军电气与电子培训系列》(NEETS)第19模块——技术人员手册,NAVEDTRA 14191中有所概述。这种方法对我们现代基于可编程逻辑控制器(PLC)的工业设备同样适用,就像它适用于最初编写材料时使用的真空管机电调谐无线电发射机和接收器一样。

文件中指出:

你可能负责维护或协助维护某些电气或电子单元、子系统或系统。其中一些工作可能很复杂,但即使是复杂的工作也可以分解为简单的步骤。基本上,任何电气或电子设备的维修都应按照以下顺序进行:

  1. 症状识别 。这是识别电子设备中某些故障或功能障碍的行为。

  2. 症状详细说明 。此步骤的目的是获取故障症状的更详细描述。

  3. 列出可能的故障功能 。此步骤适用于包含多个功能区域或单元的设备。根据您收集的信息,故障可能逻辑上位于何处?

  4. 定位故障功能 。在此步骤中,您确定多单元设备的哪个功能单元实际上存在故障。

  5. 将故障定位到电路 。您将在此步骤中进行大量测试,以将故障隔离到特定电路。

  6. 故障分析 。此步骤是多部分的。在此步骤中,您确定哪个部件有故障,修理/更换部件,确定故障原因,将设备恢复到其正常运行状态,并将必要信息记录在记录簿中,供其他维护人员参考。

步骤 1 :症状识别

要识别故障,您需要了解您的设备。这包括对设备操作的直观感觉,包括循环时间和顺序。积极主动,快速学习设备。毕竟,如果您不知道如何操作设备,如何有效地修理它?

安全也是一个重要的考虑因素,您必须知道如何保护自己和他人远离危险情况。熟悉设备操作所需的时间和精力是无可替代的。

在此关键步骤中失败,您将在操作员和生产经理眼中损害您的专业声誉。您将感受到痛苦,因为设备停机每分钟将使您的公司损失数百到数千美元。

步骤 2 :症状详细说明

当您响应服务呼叫时,重要的是停下来花点时间正确识别设备的所有问题。很多时候,我们会陷入隧道视野,只关注第一个症状。虽然这可能解决一个问题,但可能无法解决真正的问题。更糟糕的是,当技术人员在修理了一个问题后离开,而设备仍然处于未修复状态。这会导致另一次维修呼叫,潜在的设备损坏,收入损失,以及声誉的损失。

对于许多系统来说,运行或尝试运行设备完成一个完整周期就足够了。显然,在故障点之后继续操作是没有意义的。

我们必须认识到,使用标准操作程序(SOP)可以增强系统的详细说明。这可以防止操作员和技术人员常见的错误。请记住,SOP是一个包含站点和设备特定初步设置、操作说明、正常关机和紧急说明的清单。一个严格且密切相关的例子是飞行员和地勤人员使用的飞机特定飞行前检查清单,以验证飞机是否准备就绪。

技术提示 :SOP熟悉是先前症状识别和系统详细说明的一个重要方面。如果您没有书面的SOP,请将创建一份正确编写的SOP作为您的首要任务。这是非常值得您花时间的,因为SOP是培训新员工和减少设备停机时间的基础。

与此相关的是,在进行系统详细说明时,不要依赖您的记忆。把事情写下来。作为最佳实践,为每台设备维护一个服务日志。这可以是与机器一起保存的物理日志簿,也可以是公司系统中维护的电子副本。

使用日志记录症状以及故障排除步骤和维修描述。这些行动将节省大量时间。如果设备由多个不同的人员服务,这一点尤其重要。此外,务必记录服务电话的初始原因和操作员观察到的症状。这可以帮助解决间歇性故障或温度依赖性故障,这些故障是众所周知的难以排查的。

在哪里寻找识别症状

工业机械中使用的组件在设计时就考虑到了故障排除。基本但必不可少的例子包括:

  • 前面板指示灯

  • PLC面板上的指示灯LED,如图2所示的西门子S7-1200 PLC。这也适用于插件和扩展模块。

  • 现场设备(如传感器和执行器)本体上的指示灯LED。一个典型的例子是气动或液压系统,其方向控制阀(DCV)上有LED,气缸位置传感器上也有指示灯LED。

  • 与控制继电器相关的指示灯。

  • 继电器衔铁的物理位置。

  • 中间继电器的操作。

  • 现场设备的物理动作,如电机、气缸或电动操作阀(MOV)。

再次强调,了解与机器相关的操作和周期非常重要。没有这些关键信息,你将不知道在哪里或何时查看。

安全提示 :不要用手寻找空气和液压泄漏。如果你还不知道其含义,请研究术语“液压穿刺伤”。提前警告,这些图片不适合胆小的人,因为这是一种毁灭性的伤害,需要广泛的手术来挽救受影响的肢体。

先进的机器可能包括以下额外信息:

  • 存储在云或本地数据库中的时间戳错误日志

  • 人机界面(HMI)

这些日志的适用性与系统程序员的技能和想象力直接相关。汽车提供了一个很好的例子。在这里,工程师们设计了一个系统,根据汽车传感器的反馈来检测、记录和报告各种错误。虽然许多故障可以直接从数据中确定,但仍需要熟练的技术人员来正确解释数据。盲目依赖内置诊断可能会导致昂贵的维修,因为很难预测设备可能出现问题的所有组合和排列。技术人员对机器在您设施中运行的熟悉程度是无可替代的。

2 :西门子 S7-1200 PLC的图像。PLC具有指示灯,用于显示所有数字输入和输出的状态。

技术提示 :谨慎解释输入和输出指示灯。虽然它们对于开关或驱动电磁阀的慢速信号非常有效,但它们不适用于快速信号或脉冲。误解指示灯可能会给故障排除过程带来相当大的混乱和延误。

步骤 3 :列出可能的故障功能

到目前为止,所有数据都是通过视觉、触觉和听觉收集的。您会注意到没有使用任何测试设备。相反,我们仔细检查了设备,并记录下了操作员的描述和所有观察到的症状。

此时,技术人员需要退一步,考虑所有收集到的数据。目标是寻找故障的根本原因,并选择可能逻辑上导致问题的部分。作为一个代表性的例子,请考虑图3中所示的激光控制器。该设备包括激光器(未显示)、逻辑卡、定时器和安全继电器。作为技术人员,我们被期望能够排查到故障设备,有时甚至是故障组件。

逻辑上识别故障功能单元是一个特别具有挑战性的步骤,因为我们必须抵制专注于第一个症状的诱惑。这可能具有挑战性,因为:

  • 可能存在相互矛盾的症状

  • 也可能存在多个问题

  • 问题可能是间歇性的

  • 问题可能依赖于温度

  • 问题可能不在机器本身

  • 问题可能是机械性质的

  • 问题可能是由操作员或技术人员的错误自我引起的

  • 甚至可能没有问题,因为设备可能操作不当

技术提示 :当我非常年轻时,我曾受到一位小镇电视修理工的指导。我知道这是陈词滥调,但那是一个小公司镇。我的导师在工厂工作,然后在业余时间修理消费电子产品。他非常粗鲁。也许这不是最好的导师与学员关系。

我永远不会忘记那天他在我父亲面前骂我是个白痴,根本不应该从事电子工作。他并没有错,因为我未能认真对待第三步(列出可能的故障功能)。公平地说,当我在音频输出部分瞎搞时,我应该专注于电源部分。不要陷入隧道视野!

3 :激光控制器内部,展示了混合系统,包括工业组件如DIN导轨和开关,以及定制PCB。需要仔细的系统识别来逻辑地识别故障功能。

步骤 4 :将故障定位到电路

此时,我们已经将问题缩小到几个模块。在这个故障排除步骤中,我们将进行测试以将问题隔离到电路的特定部分。如果此时我们已经定位到问题,我们应该跳到步骤5并进行全面的故障分析,以确保已确定根本原因。

从之前的步骤中,我们已经有一个工作假设,将故障限制在几个模块内。我们的主要目标是系统地执行测试,将问题隔离到单个模块,然后定位到故障组件。

请注意,这是我们第一次使用接线图和测试设备。

示例 1

假设你打开控制面板,发现PLC的电源指示灯LED不亮。从故障排除步骤3中,我们已经将故障隔离到几个模块,包括PLC、主电源AC到24 VDC电源、断路器、隔离变压器或主电源本身。也有可能在24 VDC供电线上存在短路。

根据其他症状,可以排除一些模块。例如,查看与PLC共享24 VDC电源的现场设备。如果传感器在响应刺激时(亮起),可以排除许多模块。例如,一个正常工作的接近指示器将表明主电源和隔离变压器正常工作。对24 VDC电源输出的有效读数将明确排除所有上游模块。剩余的组件包括断路器、松动/断开的电线以及PLC本身。

继续使用万用表,我们可以进行一系列电压测量,以“半步法”分割并征服,隔离剩余的模块。我们可以检查PLC端子上的电源。如果存在24 VDC,PLC可能已损坏。如果不存在,我们跳到PLC和24 VDC电源之间的某个位置。

示例 2

一个由风门开关监控的大型鼓风机系统因HMI指示的“空气损失”故障而关闭。这是本周第三次对该故障的响应。设备似乎运行正常。从步骤3开始,我们怀疑PLC、鼓风机或风门开关出现故障。然而,查阅日志后发现,上周由第二班技术人员更换了一个缺失风门的故障风门开关。这表明风门开关安装不当,风门太小,或者开关张力不正确。

我们按照下一步骤进行故障分析。此外,还在风门开关触点上安装了数据记录器以监测抖动。我们让数据记录器运行至少一周,直到发现故障模式。

示例 3

假设你到达时发现一个系统中两个独立电机启动器的热脱扣器已跳闸。按下过载块复位按钮后,泵立即启动,似乎运行正常。

此时,一些技术人员会声称成功,关闭面板,继续下一个任务。通常,这是一个错误,因为他们没有考虑故障排除程序的最后一步。

技术提示 :启动电机是一个压力事件,会导致电机消耗比额定速度和扭矩运行时更多的电流。反复启动和停止(点动)会导致电机过热。它还可能导致电机启动器的热脱扣器激活。

步骤 5 :故障分析

本文描述的故障排除程序似乎是一个线性过程,其中六个步骤依次完成。在理想情况下,这是正确的。现实往往是一个混乱的迭代过程,如图4所示,进入下一步时,你需要回顾并考虑可能遗漏的内容。

4 :故障排除通常是一个迭代过程。

例如,考虑简单的继电器。从电子学研究中,你知道继电器的线圈就像一个电感器;一种存储磁能的设备。在直流系统中,通常会在继电器线圈两端并联一个二极管,如1N4004或其他类型的缓冲器。该二极管的放置使其在PLC关闭继电器时导通。此动作为继电器线圈中存储的“反冲”能量提供了一条路径。如果没有这个二极管,继电器关闭时会出现高压尖峰;这种高压尖峰可能会损坏PLC的I/O。

现在,假设一个带有半导体输出的PLC有一个损坏的输出引脚。这个引脚很可能是由于缓冲器开路而损坏的。也有可能是缓冲器短路导致了损坏。无论哪种情况,可以肯定的是,你的职业声誉与你如何处理故障分析密切相关。仅仅将设备恢复到正常运行是不够的,你必须问为什么它会被损坏,然后采取适当的措施以防止第二次故障。 在继电器缓冲器的情况下,更换PLC是一种昂贵且短视的维修,因为真正(根本原因)的问题与二极管故障有关。

步骤 6 :恢复到正常运行状态

这是故障排除的最后一步。你已经识别出故障组件,并根据需要进行了维修或更换。在将设备恢复到正常运行之前,必须采取几项重要措施:

执行全面的功能测试,以验证设备确实已修复

如前所述,SOP有助于指导你完成此过程。实际上,你正在回到步骤#1并重新执行功能测试。这是故障排除过程中的一个重要方面,因为可能存在多个问题。还存在技术人员引入的错误,例如将机器留在服务模式而不是完全运行状态。如果遇到未记录的情况,请务必修改SOP。

与机器操作员和班组长进行沟通

确定是否存在工艺缺陷、机器弱点,或者故障是否因操作不当而加剧。这也是一个好时机,可以请操作员留意间歇性问题,以防你对问题的修复缺乏100%的信心。

记录你的工作

这可以在随机器保留的日志本或工厂的官方维护数据库中完成。至少你应该记录以下内容:

  • 故障症状

  • 消耗的零件

  • 对机械进行的调整

  • 维修所花费的时间

  • 对未来技术人员的建议

技术提示 :已投入使用的设备与正在开发中的设备之间存在巨大差异。因此,现场技术人员和工程师对系统的看法有两种截然不同的方式。现场技术人员相信系统曾经正常工作过,因此可以恢复到完全功能状态。工程师、工厂技术人员、系统集成商和工程师则没有这种信心,因为系统可能从未正常运行过。

最后的思考

故障排除工业控制和自动化系统是一个系统化的过程。海军的六步流程仍然像首次引入时一样重要。事实上,我们可以认为,随着现代PLC和基于云的工业系统的复杂性增加,它变得越来越重要。正如我最喜欢的务实的Trekking工程师曾经说过的那样,“他们越是过度思考管道问题,就越容易堵塞排水管。”

有效地进行故障排除需要技能、实践和专注的技巧。

我们很乐意听取您的意见。本指南中是否缺少任何内容?另外,您是否有任何其他人可以学习的例子。如果有,请在下方留下您的评论。最后,请务必通过完成本笔记末尾的问题和批判性思考问题来测试您的知识。

以下仅代表个人观点哈,说说想法。确实故障排除工业控制和自动化系统是一个系统化的过程,抛砖引玉几个小想法,不喜勿喷。
1、安全措施的执行难点-LOTO程序、PPE使用等安全规范虽被提及,但实际中如何避免操作人员因“自满”或经验主义而违规?是否有针对小型企业的简化安全流程?值得思考。
2、六步法的灵活应用-面对复杂系统(如集成PLC与物联网模块的设备),如何避免陷入“隧道视野”或误判间歇性故障?步骤3“列出可能故障”中,若存在多个相互矛盾的症状,是否有优先级排序策略?
3、现代系统的适应性-针对智能化设备(如支持云端诊断的PLC),传统六步法是否需要调整?例如,如何结合HMI错误日志与人工排查?