临沂大学276000
摘要:人类活动识别(HAR)在物联网等领域发挥着关键作用,马尔科夫逻辑网络(MLN)因其强大的知识表达能力广泛应用于此,但在处理室内复杂环境中的多主体交叉活动时表现不佳。本文提出结合层次化注意力网络(HAN)与马尔科夫逻辑网(MLN)的多头注意力机制模型,以提升室内多人活动识别的准确性和推理能力。
关键词:室内多人活动识别;多头注意力机制;马尔科夫逻辑网;隐私保护;智能环境互动
一、引言
人类活动识别技术在智能家居和监控系统中扮演着重要角色[1],主要通过两种方式实现室内活动的自动化识别:传感器数据和视频分析。基于摄像头的视觉识别方法通过图像处理和计算机视觉算法提取人类活动特征进行分类[2],而基于可穿戴设备的传感器技术则利用加速度计和陀螺仪等传感器收集数据来推断个体的活动状态[3]。尽管基于视频的方法存在隐私泄露的风险,基于传感器的方法因其隐私保护优势而逐渐受到青睐。
本文提出结合层次化注意力网络(HAN)与马尔科夫逻辑网(MLN)的室内活动识别模型,HAN通过自注意力机制捕捉上下文信息,在多个层面进行信息融合和推理,从而全面提升系统的理解与推断能力。
二、相关工作
物联网的室内活动识别已经成为一个备受关注的研究领域,许多技术被用于识别和分类室内活动、互动及社会活动。活动识别在健康监测、老年护理和个人健身培训中扮演着重要角色[4][5],提供了大量可用于个人服务的高水平上下文信息[6]。当前最常见的方法是处理数据流的窗口[7],提取特征向量,这些特征向量再用于分类器,如贝叶斯网络、决策树、随机森林、神经网络和支持向量机[8]。
尽管多人活动识别领域已有较多研究,但大多数基于视频和图像的方法在隐私保护上存在问题,而基于环境传感器的方法仍有待进一步优化。本研究通过引入HAN-MLN,旨在弥补现有研究的不足,并为室内多人活动识别提供一种安全有效的新方法。
三、基于多头注意力机制的室内活动识别
本发明内容主要分为知识表示构建、层次结构设计,嵌入表示生成、上下文结构学习四个部分,可应用于多种室内对象,实现更高效交叉并发活动学习。
3.1 知识表示构建
知识表示构建是将收集到的活动数据转化为可用于推理的逻辑结构的关键步骤。在室内多人活动识别任务中,这一过程涉及多个方面,包括实体和关系的识别、逻辑公式的构建,以及知识库的组织和优化。
首先,在活动识别的场景中,需要明确识别出参与活动的个体及其相关物体。个体识别包括将活动中的每个个体(如人A、B)进行标识,并可能包含他们的特征信息,如身份、性别、年龄等,这些信息有助于在推理时更准确地判断个体的行为。同时,物体识别涉及识别出环境中的关键物体,如家具(椅子、桌子)、家用电器(电视、冰箱)以及个人物品(手机、书籍)。这些物体的存在往往会影响个体的活动类型和行为模式。此外,关系识别则明确个体与物体之间的关系,例如“观看”、“使用”、“坐在”等,这些关系是理解活动上下文的基础。
3.2 知识层次结构设计
这个过程包括设计一个层次化的知识库结构,将不同层次的知识(如实体、活动、关系等)组织在一起。可以使用图结构或数据库来存储这些信息,使得推理过程更加高效。在室内多人活动识别任务中,知识库的层次结构设计是一个重要环节,包括实体、活动和关系等多个方面。
首先,在知识库的层次结构中,实体层主要包含个体和物体的信息。例如,个体(Person)节点可以存储每个个体的ID、姓名、年龄和性别等属性,而物体(Object)节点则包含物体的ID、名称、类型和状态等信息。在活动层,活动(Activity)节点定义活动的类型(如“走”、“坐”、“吃”等)以及相关的活动描述和特征。关系层则通过定义个体与物体、个体与活动之间的关系,捕捉它们的互动,如“使用”、“观看”、“参与”等关系。
3.3 嵌入表示生成
嵌入表示生成是知识表示构建中的关键步骤,旨在将原始的实体和活动数据转化为高维向量表示,以便于后续的模型训练和推理。在室内多人活动识别任务中,生成有效的嵌入表示对于捕捉活动的语义信息、理解个体行为以及进行逻辑推理至关重要。
首先,个体嵌入的生成为每个个体(如人A、B)提供了唯一的嵌入向量。这些嵌入不仅包含个体的基本信息(如身份、性别和年龄),还包括他们的历史活动模式、偏好和其他相关特征。通过使用Word2Vec或GloVe等预训练嵌入模型,个体的相似性和差异性可以在嵌入空间中得到体现。类似地,物体嵌入则为每个物体(如电视、椅子、桌子)生成嵌入向量,包含物体的类型、状态及其在活动中的功能,确保物体的向量在活动场景中具有高语义关联性。
在活动嵌入的生成中,为每种活动(如“走”、“坐”、“吃”等)创建嵌入向量,通常基于活动的描述、上下文以及与个体和物体的关系进行构建。可以利用自然语言处理技术将活动描述转化为向量,例如,通过将活动的文本描述输入到BERT等预训练语言模型中生成丰富的活动嵌入表示。这种嵌入能够捕捉到活动的上下文信息及其与其他活动之间的关系。
在生成个体、物体和活动的嵌入后,下一步是将这些向量进行拼接或加权组合,以形成一个统一的输入表示。例如:
��������,��-��.=[������������������(��),������������������(����),������������������(��������ℎ������)]
通过拼接表示,可以将个体嵌入、物体嵌入和活动嵌入整合在一起,形成对特定活动的全面表示。此外,通过自注意力机制,可以为不同的嵌入分配权重,突出在特定活动下更为重要的特征。
3.4 上下文结构学习
将上下文信息与马尔科夫逻辑网(MLN)推理结合的过程可以分为几个关键步骤,这一过程为复杂的活动识别提供了强大的支持。
首先,通过多头注意力机制生成的上下文表示被输入到MLN中,作为推理的基础。多头注意力机制允许模型从多个子空间同时关注不同的输入特征,从而提取出丰富的上下文信息。例如,模型可以捕捉个体A与周围环境、其他个体以及活动之间的互动。这些上下文表示将为MLN提供必要的语义信息,使得后续推理更加准确和有效。
结合上下文信息,MLN能够动态调整推理规则。这意味着,模型不仅仅是静态地应用预定义的逻辑规则,而是根据当前的上下文信息实时地更新和激活相关规则。例如,当个体A的上下文信息显示他正在用餐时,模型可以自动激活与“吃饭”相关的逻辑规则,例如“如果个体A在吃东西,则他可能处于坐着的状态”。这种动态适应能力使得模型能够更灵活地应对不同场景和活动的变化。
五、结论
本文提出的HAN-MLN模型结合层次化注意力网络(HAN)和马尔科夫逻辑网(MLN),在复杂室内环境中提高了活动识别的准确性、鲁棒性和隐私保护能力。与其他方法相比,HAN-MLN在不同人口数量下展现出稳定性,具有广泛的应用潜力,未来将进一步优化并扩展其应用范围。
参考文献
Bouchabou D, Nguyen S M, Lohr C, et al. A survey of human activity recognition in smart homes based on IoT sensors algorithms: Taxonomies, challenges, and opportunities with deep learning[J]. Sensors, 2021, 21(18): 6037.
Beddiar D R, Nini B, Sabokrou M, et al. Vision-based human activity recognition: a survey[J]. Multimedia Tools and Applications, 2020, 79(41): 30509-30555.
Bigelli L, Contoli C, Freschi V, et al. Privacy preservation in sensor-based Human Activity Recognition through autoencoders for low-power IoT devices[J]. Internet of Things, 2024, 26: 101189.
Rashidi P, Cook D J. Keeping the resident in the loop: Adapting the smart home to the user[J]. IEEE Transactions on systems, man, and cybernetics-part A: systems and humans, 2009, 39(5): 949-959.
Contreras R C, Parnandi A, Coelho B G, et al. NE-Motion: Visual analysis of stroke patients using motion sensor networks[J]. Sensors, 2021, 21(13): 4482.
Perera C, Zaslavsky A, Christen P, et al. Context aware computing for the internet of things: A survey[J]. IEEE communications surveys & tutorials, 2013, 16(1): 414-454.
Banos O, Galvez J M, Damas M, et al. Window size impact in human activity recognition[J]. Sensors, 2014, 14(4): 6474-6499.
Lara O D, Labrador M A. A survey on human activity recognition using wearable sensors[J]. IEEE communications surveys & tutorials, 2012, 15(3): 1192-1209.