【转】面向信息茧房的用户画像多样化标签推荐
来源:网络 发布时间:2023-04-20 浏览:2840摘要:
个性化推荐算法提高了信息资源推送的精准度,但也带来了信息茧房效应,导致用户信息窄化、认知失衡、价值偏颇、群体极化。文章针对推荐系统中信息茧房导致的负面影响,结合用户画像技术中的多标签分类算法,对推荐系统用户的兴趣标签进行分级,构建多维特征标签体系,由此提出基于用户画像的多样化标签推荐方法,依据所构建的多样化标签体系进行协同过滤推荐,解决推荐系统中因信息茧房所产生的信息推送窄化和信息雷同等问题,在满足精确率的条件下,促进推荐结果的多样化。
大数据时代,推荐系统能够根据数据痕迹深入分析用户需求和潜在兴趣,为用户量身定做精准的“个人日报”。然而,这种精准服务模式会使用户长期处于“个人日报”的局限之中,用户易接收到大量同质化内容,兴趣无法迁移,致使知识接触面和视野不断趋于窄化。加之用户对自身的信息需求也有一定的偏好,于是便逐渐地将自己禁锢在一个蚕茧一般的“茧房”之中,形成“信息茧房”。用户画像作为一种用户数据分析工具,能够将用户复杂异构的数据转换成多样化的标签并进行可视化表现,实现对用户的全方位刻画,从而能了解到用户多样化的特征和兴趣。因此,本研究提出面向信息茧房的用户画像多样化标签推荐服务,通过构建用户画像模型对用户标签进行分级,再从用户画像的标签入手挖掘出用户多样化的兴趣和需求,最终提出基于用户画像的多样化标签推荐服务方式,提升推荐系统的多样性,为解决“信息茧房”问题提供参考。
1 相关研究进展
1.1 信息茧房
1.1.1 信息茧房的产生
“信息茧房”的概念最早是由美国芝加哥大学教授凯斯·桑斯坦提出的,他认为每个人对自身的信息需求都是有偏好的,在选择所接收到的信息时往往只会关注自己所偏好的或者迎合自己喜好的信息,长此以往,就会将自己困在一个由信息组成的“茧房”之中。与“信息茧房”相关性较大的是“回音室效应”和“过滤气泡”。
“回音室效应”的概念也是由凯斯·桑斯坦提出的,他认为在一个相对封闭的环境中,有些观点相似的信息会不断地进行重复传播,并且传播的形式可能会产生扭曲或被加以夸张,从而这些观点会得到进一步强化,使那些在相对封闭环境中的用户认为这些虚假或扭曲的信息就是事实的全部。在这个相对封闭的环境中,其他领域的观点和想法,不会得到认同。“回音室效应”在互联网环境中的表现是,部分商业网站会依靠个性化推荐算法,为用户提供和搜索结果相似的信息内容。因此,用户在选择信息来源时,就已经进行了信息的过滤,用户所接收到的信息内容都是相似的,这就使得用户固守在符合自己偏好的信息与意见的圈子里,就像处在一个“回音室”之中。不同的“回音室”之间是相互隔绝甚至是对立的,这就会容易导致群体极化现象的产生。
“过滤气泡”则由Eli Pariser提出,他认为用户自身世界观的形成会受到用户对社交网络依赖的影响,互联网上的一系列个性化过滤器会为用户构造出独特的网络环境,使用户在使用互联网时处在个人化的信息世界。而这些过滤器大多盛行于互联网。而“过滤气泡”是指以大数据与推荐算法为底层架构,根据用户的使用时间、地区、浏览行为和搜索历史生成用户画像,并通过算法技术向用户提供相关的信息。因此用户所接收到的信息都是经过过滤的,从而对用户进行智能隔绝。过滤气泡会导致用户的视野显著变窄,将用户隔绝在自己的信息世界。
1.1.2 信息茧房相关现状
对于信息茧房的相关研究,大多都是集中在信息茧房的产生和危害两个方面。关于信息茧房是如何产生的,Bozdag E等认为搜索引擎、社交网络平台和其他在线中介所使用的算法,会形成“过滤气泡”,从而降低了信息的多样性。Geschke Danine等通过构建模型,对十二种不同的信息过滤场景进行分析。结果显示即使没有任何社会或技术的过滤,“回音室效应”也会出现。Nguyen T T等对电影评分和相关推荐网站上的数据进行分析,认为推荐系统的算法会在用户层面产生“过滤气泡”的效应,并得出协同过滤算法可能会向用户推荐本不会接触到的信息类型,进而开阔用户的视野。Lili Ji认为在智能媒体背景下,算法推荐技术被广泛应用于信息分发中,会导致“信息茧房”现象的出现,对于信息茧房的解决可以从政府的调控、媒体的融合、社会群体的网络互动、智能媒体的强化和算法推荐技术的改进五个方面来进行。蔡磊平提出个性化推荐系统的普及和应用,大大提升了信息的分发率,用户的信息需求得到满足,但是导致了“信息茧房”效应的产生。关于信息茧房所带来的危害,Wesley Cota等认为在社交网络中的“回音室”效应,使用户只喜欢与意识形态一致的同伴互动,从而导致错误信息的传播。王秋旭认为在“信息茧房”的影响下,再加上用户的选择性心理和群体压力、技术发展等原因,微博用户之间会形成各个不同的团队,进而造成群体极化现象。罗华丽等认为网络圈层会使一些大学生陷入自我构筑的“信息茧房”之中,并且信息茧房所带来的信息茧化、群体极化等负面效应会给大学生带来危害。何杨等认为新媒体过度使用算法技术导致用户受困于“信息茧房”,并对新媒体环境下网络群体极化动力机理进行研究,为政府管控网络舆情和减缓信息茧房效应提供参考。刘晓璇认为在当今时代,智能手机已经成为大众传播的主要媒介,通过智能算法为用户画像,精准推荐其感兴趣的信息,进而形成了“信息茧房”,也导致了信息同质化、社会黏性丧失、群体极化等问题。
综合上述文献可以看出,算法推荐技术和个性化推荐系统的飞速发展与广泛应用,再加上用户对信息需求的选择性心理,是造成“信息茧房”的主要原因。而信息茧房的产生,会使用户的信息接收范围变窄、对世界和社会的认知出现偏差,并且会造成价值偏颇、信息同质化和群体极化等负面效应。当前,国内外对信息茧房的相关研究逐年增多,但学者的研究重点大多集中于信息茧房是如何产生的和信息茧房给用户带来的负面效应有哪些,对如何进行“破茧”,如何降低信息茧房负面影响、开阔人们视野的研究还相对较少。
1.2 用户画像与个性化推荐
用户画像起初是由交互设计之父Alan Cooper提出的,他将用户画像定义为“基于用户真实数据的虚拟代表”。Gauch S、Quintana R M等将用户画像形容为从大量用户数据中提取信息并生成的用户形象集合,根据形象集合,可对用户需求、兴趣和行为进行刻画。Assimakopoulos C对希腊的移动互联网服务进行了研究,并识别基于心理和人口统计特征的用户群体;同时,分析网络服务的使用和移动技术采用的程度,使用用户画像的方法将用户进行分组。Bertani R M等提出一种新的学习用户画像的算法,结合新颖性和流行度生成个性化推荐,实验结果表明,在相同背景下,该算法的性能优于传统的协同过滤算法。王顺箐认为图书馆可以构建智慧推荐系统,而智慧推荐系统的构建,要在数据采集的基础上整合用户画像、观点分析等主要流程,并且以读者需求分析为核心。张钧基于用户画像和知识发现对图书馆读者用户画像进行构建,并据此对基于用户画像的图书馆知识发现服务模型进行构建。刘蓓琳等在电子商务用户购买的决策过程中应用用户画像技术,并从电子商务用户画像中的用户画像维度划分、属性确定和属性抽取方法三个角度进行了分析研究。翟秀凤在对基于用户画像的资源推荐方式和传统资源推荐方式的区别进行分析的过程中,应用用户画像理论,对用户显性与隐性画像资源库进行构建,并结合用户画像资源库开展智慧推荐系统设计。谢姝琳利用用户画像的构建方法,对图书馆用户群体的差异化行为特征进行探究和呈现,最后提出基于图书馆特定情境来构建用户画像标签体系。
综合上述分析可以看出,用户画像作为一种用户多样化标签表现工具,在推荐系统中得到广泛应用,能够通过将用户各个属性不同权重的数据转换为多个维度的标签,对用户进行全方位、立体化的刻画。而在用户画像研究方面,国内外相关研究大部分关注的是用户画像的构建方法,以及用户画像在推荐系统中的相关应用,对用户标签体系的关注和挖掘存在不足,缺乏基于用户标签体系对用户多维兴趣进行挖掘的相关研究。另外,当前很少有研究将用户画像和信息茧房结合起来。鉴于此,本文在结合用户画像和信息茧房相关理论的基础上,利用用户画像核心技术,依据多标签分类算法构建用户的多维特征标签体系,并利用主题模型对用户各级标签下所隐藏的兴趣进行挖掘,最终通过多样化标签体系进行协同过滤推荐,从而解决推荐系统中信息茧房导致的信息推送窄化和信息雷同问题。
2 面向信息茧房的用户画像多样化标签推荐服务架构
用户画像中多样化、多元化的标签,能有效地对用户的兴趣和需求进行多样化、全方位的刻画。将用户画像的多样化标签应用到推荐系统中,对用户画像的标签分级,进而对用户画像模型以往的标签体系进行改进,构建出用户画像的多维特征标签体系来分析和挖掘用户多方面的需求和爱好,能有效提升推荐系统的多样性,进而有效降低“信息茧房”的影响。本文设计了基于用户画像的多样化标签推荐服务框架,将多标签分类、主题模型和协同过滤推荐进行有效结合。首先,对用户的相关数据信息进行搜集和处理,提取出用户数据信息中的标签,从而生成用户画像模型;然后,依据用户画像的标签权重和多标签分类算法,对用户画像标签进行分级;最后,利用主题模型、协同过滤推荐实现多样化的推荐服务,以此建立一个合理、自适应的多样化标签推荐服务体系。基于用户画像的多样化推荐服务框架。
图示 基于用户画像的多样化标签推荐服务架构
画像构建层是构建基于用户画像的多样化标签推荐服务体系的前提基础,刻画出用户的画像模型,才能了解用户的标签都包含了哪些内容。构建用户画像模型,就是全面收集用户的相关数据,然后将用户相关数据中的关键词汇和文本进行凝练与提取,作为用户画像模型的标签,从而构建标签体系。首先,利用网络爬虫和相关方法,从短视频软件的数据库中获取用户的基本信息、兴趣偏好和互动行为等各个类型的相关数据;其次,应用数据清洗、转化和归约方法处理收集到的用户相关数据,将不同结构的数据都转化为同一结构;再次,根据用户的相关数据,提取其中的主题词,形成用户标签,同时对用户标签进行权重计算,组成用户标签体系,构建用户的标签词库;最后,将用户的特征属性与标签进行匹配,为用户粘贴相应的标签,实现用户的标签化,并应用可视化技术呈现用户画像模型。
标签分级层是多样化标签推荐服务框架的核心构成部分。首先,将用户标签词库中的所有标签进行分类,了解用户的标签类型及用户标签的具体内容;然后,对用户的标签内容进行更精细的划分,基于用户画像模型的标签权重和多标签分类方法,对用户画像模型的标签进行分级,实现用户画像多样化标签的等级化;最后,按照用户标签的级别,对用户标签进行由粗到细和逐个级别的关联分析,得出更为精准细化的用户标签所代表的用户特征,进而发现用户属性的多样化特征,构建出用户的多维特征标签体系。
服务应用层是在整合画像构建层和标签分级层服务功能的基础上,根据用户多维特征标签体系中用户的各个特征,利用主题模型的方法,对每个级别的用户标签中的主题进行分析和提取。然后利用协同过滤算法将标签分析结果应用到推荐系统中,进而进行多样化标签推荐服务,如基于用户兴趣画像可以对用户的多个兴趣爱好进行分析和挖掘,根据用户的多样化兴趣爱好,为用户提供多样化的信息资源推荐服务;基于用户行为画像可以获取到用户的行为模式、规律等行为特征,并将行为模式归纳为主题,从而进行多样化推送。此外,系统还可以根据用户的行为模式,为用户推荐具有相同行为模式的用户,以此进行交流讨论;或通过构建动态画像模型来追踪用户兴趣和行为的变化,提供实时的多样化服务。
3 用户多维特征标签体系的构建
3.1 用户画像模型的构建
3.1.1 数据采集
通过分析和挖掘用户所留下的相关数据,可以精准地完成用户及用户群体画像的刻画,从而将用户的兴趣偏好、行为特征和信息需求全面完备地体现出来。刻画用户画像模型所需的相关数据主要包括用户的基本信息数据、内容偏好数据、互动行为数据和数量统计数据。其中,用户的基本信息数据主要包括用户的姓名、性别、年龄、用户ID、所从事的工作、地理位置、籍贯、教育程度、电话号码等信息,此类信息可以通过用户在注册软件或客户端时所填写的信息进行获取;兴趣偏好数据主要包括用户喜好或关注的信息主题、相关作者、浏览时长、浏览时段、喜好的内容类型等数据;互动行为数据主要包括用户在浏览时所进行的点赞、收藏、转发、下载和讨论等行为数据;数量统计数据则是包括用户的关注数、好友数、粉丝数、点赞次数、评论次数等数据。这些数据可以通过爬虫软件进行爬取或者从相关的数据库中进行导出提取。
数据采集者应保护用户隐私权,将所采集的用户信息匿名化并严格管控使用权限,不采集用户其他与多样化推荐无关的信息数据,加大用户基本信息数据和隐私数据的使用管理力度,保护用户数据的所有权和使用权,对采集到的数据进行集中管理。同时,制定业界行为规范和公约,利用行业自律与行为监督来保护用户隐私。鉴于数据的来源多样,所收集的数据结构是不同的,主要包括结构化数据和非结构化数据,不能直接用来构建画像,因而需要对数据进行处理。非结构化数据需要通过数据清洗、数据集成、数据转换和数据归约的方法进行处理,进而转换为结构化数据。结构化数据存在着数据缺失、数据重复和同名异义的问题。数据缺失问题可通过搜索或询问等方式进行补充完善;数据重复问题需要剔除多余信息,使数据保持唯一;同名异义问题则需要通过人名消歧等方法来解决。
3.1.2 标签的提取与权重计算
构建用户画像模型就是给用户贴上相应的标签,而贴标签就是将相应的符号粘贴到所收集的用户相关数据上。标签可以理解为一种用户数据和特征的符号表示,其具有短文本和意义化的特点,便于对用户的需求和行为进行分析和理解。因此,构建立体的用户画像模型,需要在收集和处理用户数据之后,对数据之中的关键词汇和文本进行分析,提取出用户的特征标签。用户画像是多维度、多层次的模型,以往的单标签数据提取方法难以对用户画像的标签进行深度挖掘,从而导致用户画像和资源画像标签不足、标注不准。对此,我们可以通过统计分析、机器学习等相关方法,从多个维度来对用户画像的标签进行提取。
对于用户标签的提取,本文围绕所收集到的用户基本信息数据、知识偏好数据、互动行为数据和数量统计数据四个维度,提取出相应的用户标签。其中,对于用户基本信息数据的标签提取就是将用户在基本信息中所填写的内容进行精炼,直接作为标签。兴趣偏好数据的标签提取,则是将用户检索内容、所关注和喜好的信息中的关键词或主题词作为标签进行提取。互动行为数据的标签提取,就是围绕用户的社交互动信息进行提取,包括用户在进行评论、讨论时发表的内容和相关特征等信息。数量统计数据的标签提取,就是对用户的关注数、好友数和粉丝数等进行统计提取。具体内容如图。
图示 用户标签内容
构建用户画像,需要在提取出用户画像模型的相应标签后,计算用户画像标签的权重,然后根据标签的权重进行标签归类。计算用户画像的标签权重,可通过加权算法对不同类型的标签赋予不同的权重。其中,基本信息标签由于是对用户基本信息数据的精炼,直接作为标签,所以对基本信息标签的权重计算可以直接计算;而用户的兴趣偏好不是一成不变的,在权重计算时需要综合考虑偏好权重和衰减权重;互动行为标签则可以根据用户互动行为发生的频率、数量等强弱关系进行计算。
3.1.3 生成用户画像模型
在标签体系构建完成后,以标签体系为依据对用户的属性特征进行分析,通过特征属性与标签的匹配,可将相应的标签粘贴到用户上,实现用户标签化,从而构建出用户的画像模型;以不同的标签权重为依据,使用tagCloud、Wordle、Tagul等工具将标签进行可视化表示,采用语义分析技术来发现用户间的隐性关系;对用户的标签进行聚类,聚合具有相似属性特征的用户,进而得到不同的群体用户画像。
3.2 用户画像模型标签分级
为了从多个维度对用户的兴趣和需求进行分析,使用户画像的标签体系更加完整和全面,本研究从用户画像的多样化标签入手,依据以往的多标签分类算法,计算用户画像每个标签的权重,将用户的标签进行分级,构建用户的多维特征标签体系。多标签研究主要有两种分类算法:问题转化法主要是将多标签分类问题分解为多个单标签分类问题,再利用传统的单标签分类;算法转化法是通过对传统的分类方法进行改进,使其能适用于多标签数据的分类。用户画像的标签种类和数量较多,使用问题转化法会比较麻烦,所以算法转化法较为常用。
本研究将用户画像模型的标签权重和多标签分类算法进行结合,实现用户画像标签的分级。首先,根据构建画像模型时所计算出来的每个标签的权重,在基本信息标签、兴趣偏好标签和互动行为标签这三个标签类型中,选取各自权重最大的一个标签,并将选取出来的标签作为一级标签。其次,以选取出来的一级标签为中心,利用多标签分类算法,如KNN算法,对剩下的标签进行计算,得出其他标签与一级标签之间的相似度,然后选取与一级标签相似度高的标签,作为第二级标签。以此类推,对剩余的标签进行计算,得到第三级标签、第四级标签、第五级标签……,直到完成所有的标签分级。最后,依据分完级别的标签,构建出用户画像的多维特征标签体系。
3.3 多维特征标签体系构建
构建多维特征标签体系,需要从多个层面对用户的兴趣特征和行为特征进行剖析,进而挖掘出用户多方位的爱好和需求。用户画像模型是多维度、多层次的模型,用户画像包含着用户多个维度的数据,因此可以通过统计分析、机器学习等相关方法,在标签分级的基础之上,从多个维度对用户画像模型标签的特征进行划分,由此构建用户画像的多维特征标签体系。
对于用户画像多维特征标签的构建,本研究根据对用户基本信息标签、兴趣偏好标签和互动行为标签这三类标签的分级,将用户画像模型标签的特征分为基本特征、兴趣特征、行为特征、数量特征。其中基本特征主要是对用户基本信息标签类型进行分级后所得到的,包括用户性别、用户ID、用户姓名、是否实名认证、所在地域、从事的工作、年龄、籍贯、电话号码等;兴趣特征主要是对用户兴趣偏好标签进行分级后所得到的,包括主题、话题、位置、使用的设备、检索内容、喜好的内容类型、喜好的内容主题、喜好的内容作者、关注的作者和内容等;行为特征是对用户互动行为标签类型进行分级后所得到的,包括用户对某个话题的参与程度,用户的评论内容,用户在评论中使用的表情、语气词、符号,用户的转发、下载、点赞、发布等;数量特征是对上述标签进行数量统计后所得到的,包括用户的关注数量、粉丝数量、好友数量、访问数量、浏览时长、浏览时间段、评论次数、点赞次数、下载次数等。
4 面向信息茧房的用户画像多样化标签推荐服务模式
4.1 基于用户兴趣画像的多样化资源推荐服务
对用户画像模型数据库进行分析,可以从提取的用户画像兴趣偏好标签中了解到用户的兴趣偏好与关注热点,由此形成用户的兴趣标签,构建出用户的兴趣画像。该画像能够更好地描述用户的关注热点和兴趣偏好,并能够对用户兴趣偏好的变化情况进行分析,从而实现基于用户兴趣画像的多样化资源推荐服务。首先,基于用户兴趣画像的多样化推荐服务,识别用户的兴趣偏好信息和行为信息,进而得出用户的兴趣点与关注点。然后,在标签分级的基础上,依据LDA、JST等主题模型,对每个级别用户标签中所潜藏的主题信息进行识别和分析,进而挖掘出用户的兴趣分布。另外,根据所构建出的用户多维特征标签体系,也能够了解到用户的兴趣偏好特征。最后,依据协同过滤算法,找出用户感兴趣的信息内容,将与用户的多个兴趣点和关注点相符的信息资源推送给用户,根据多个主题、话题和类型进行多样化的推送,以此来扩大推送内容的范围,促进推送内容的多样性。同时,还可以依据用户的兴趣点和关注点,推测出用户以往没有涉及的“未知领域”,并将用户不关注的信息资源穿插在用户的关注内容中进行推送,适时地将用户不关注的信息资源推送给他们,帮助用户激发兴趣和开阔视野,探索那些“未知领域”,进而扩大用户的信息接收范围,使用户能够接收到多方位的信息,减少“信息茧房”所带来的视野窄化、价值偏颇等影响。
4.2 基于用户行为画像的多样化标签推荐服务
系统通过对用户画像数据库进行深度分析和挖掘,可以从所提取的用户互动行为标签中了解用户的行为模式和规律,由此形成用户的行为标签。用户的行为标签能够更好地体现用户在浏览信息时的行为模式和行为特征,由此构建出用户的行为画像。行为画像能够更加精准地描述用户的行为特点和行为习惯,并基于不同的用户行为模式分类提供多样化资源推荐服务。该推荐服务通过分析和挖掘用户的各种行为数据,生成用户的行为标签,并聚类用户的行为标签,进而生成多个行为层次结构,然后将多个层次结构进行归纳,形成多个主题,构建用户行为主题模型,利用主题描述用户的行为模式和规律;在归纳主题的基础上,结合用户多维标签体系中的用户行为特征,依据协同过滤算法,将信息资源主题与用户行为主题进行匹配,把与用户多个主题相符的信息资源推送给用户,从而进行多样化推送。同时,通过对用户行为的规律和特点进行分析,可以向其推荐具有相同行为模式的其他用户。这些用户虽然有着相同的行为模式,但是兴趣和爱好会有所差异。因此,用户之间可以将各自喜好领域内的信息资源进行分享和讨论,从而开阔视野,扩大信息接收范围。用户在对某个话题进行讨论时,能够得到不同的看法和观点,增强与外部世界的联系,实现多元观点的碰撞与融合,有效地避免了“群体极化”现象的产生。
4.3 基于动态画像实时更新的多样化推荐服务
在大数据时代背景下,用户的数据信息和行为模式会因为时间和场景的变化而发生变化,因此需要对用户画像进行实时更新。基于动态画像实时更新的多样化资源推荐服务能够对用户个体进行标记,各类短视频软件和新闻客户端平台可以实时记录用户每次的浏览行为轨迹和浏览时间变化,系统能够根据用户的数据信息变化对其数据库存储信息进行关联,由此对其画像进行实时更新,通过更新的用户画像可以准确提取用户最新的访问内容和访问行为特征,同时结合用户访问路径、访问频率、页面停留时间、访问间隔时间等指标的变化,对用户的需求偏好进行预测,从而对推荐系统的推荐机制进行调整,最终为用户推荐与其当前兴趣偏好、行为模式最为相符的信息资源,提高其在平台的留存率和回访率。对用户画像的实时更新,也使得用户的兴趣画像和行为画像进行自我更新和调整,有利于挖掘出更加多样化、全方位的信息资源并根据用户需求的变化进行多样化推送。同时,根据用户对多样化资源推送服务的评价和反馈,可以实时地对推荐策略进行修正和完善,从而进一步更新用户的服务需求,完善推荐系统的服务机制,使用户画像多样化标签推荐服务具有更大的灵活性。
文章内容和图片均来源于网络 侵删