随着大数据、云计算、人工智能以及5G技术革命成果与出版应用的快速融合,学术出版业蓬勃发展,面对海量增长的用户数据、内容数据和交互数据等,通过人工智能、用户画像技术等洞察用户需求并关注当前研究热点,为科研人员提供智能化的学术出版平台,实现科研项目全生命周期的多元化服务是一种必然趋势。2022年4月中共中央宣传部印发《关于推动出版深度融合发展的实施意见》明确指出“探索通过用户画像、大数据分析等方式,充分把握数字时代不同受众群体的新型阅读需求”,“强化大数据、云计算、人工智能和区块链等技术应用,创新驱动出版深度融合发展”[1]。这些政策为探索学术出版融合发展的新模式、新业态、新领域指明方向。
智媒时代,新技术与设备带来新的互动关系与新的服务模式,推动了学术期刊出版产业全链条的变革和重塑。国外学术期刊出版数字化智能化发展迅速,已经进入到平台功能化、内容数据化、服务智能化及运营开放化发展阶段,智能出版、开放出版、知识服务、数据出版、媒体融合、数据挖掘、流程创新等已经成为海外学术出版的研究热点[2-10]。基于数据关联的学术期刊用户画像可以预测用户的行为,实现个性化精准化知识服务[11]。强调智能化、个性化服务,增强知识搜索功能,加强与平台外部的链接和合作等已经成为一种学术期刊融合发展趋势[12]。
纵观已有研究,关于学术期刊智能出版融合发展的研究一般以介绍性、描述性的居多,更是忽略了深层次上学术期刊融合出版转型中价值创造最关键部分:内部维度出版流程和外部维度知识服务的智能化应用和融合发展。本文从用户需求出发,致力于研究人工智能、大数据、用户画像与学术期刊出版平台的深度融合,探讨出版流程的智能重构和知识服务智慧化转型,期望构建符合智能媒体时代用户需求的集成化、多元化、 共享化、开放化的学术期刊智能出版平台,这对于加强中国学术期刊出版的智能化创新体系和出版强国建设、提升中国学术期刊出版水平和话语权,使中国成为世界主要科学中心和创新高地具有重要意义。
国外比较成熟的智能学术期刊出版系统有:Elsevier 的ScienceDirect;Springer Nature 的 SpringerLink;John Wiley &Sons的WileyOnline Library;Taylor &Francis 的Taylor &Francis Online;美国化学会(ACS)的ACS Publications;美国电气电子工程师联合会(IEEE)的IEEE Xplore;英国皇家化学会(RSC)的RSCPublishing等。这些出版平台基本都是一站式出版平台,集成了不同群体所需的功能,不仅具有强大的搜索引擎,可以检索期刊、论文和知识信息等,还能为用户提供语义链接,例如参考文献链接、检索结果链接、社群链接以及专家链接等;不仅具有智能化出版流程和智能决策工具,还有论文优先出版、开放获取以及个性化服务等功能。目前,国外学术期刊出版平台都集中在提升基于用户画像的出版平台功能、创新的多模态数字内容建设、开发基于数据的智能决策分析工具、变革出版流程以及强化开放出版数据仓储建设等方面,希望通过新技术来提高学术出版平台的选题策划力、审稿评议力、编辑加工力、内容生产力、营销推送力、知识服务力和成果开放力。例如,Elsevier的发展战略就向“技术、内容和分析驱动型公司”转型,收购了大量数据分析公司、人工智能公司、社交平台及开放获取知识库,如SSRN 、Impactstory等,每年投入5 亿英镑应用于技术创新,目前拥有1 000多名世界顶级技术专家。Elsevier、Wiley、Springer Nature等研发可视化增强型学术出版物, 不断优化和增强文章显示功能,开发系列智能决策工具,如辅助写作工具ShareLaTex;期刊选择工具CoFactor、Edanz;文章费用管理工具RightsLink;排版工具LaTeX;分享与社交平台Research Gate等。
与国外学术期刊出版智能化运营状况相比,中国学术期刊出版平台数字化智能化融合进展和成效仍显迟缓,在平台功能、出版流程、内容生产、知识服务、成果开放以及社交服务等诸方面都存在较大差距。中国学术期刊出版平台主要包括中国知网、万方数据、维普网、超星域出版平台、中国科技论文在线、中华医学会学术期刊群以及自主研发期刊出版平台,出版模式已经逐渐向着集成化、开放化、共享化、多元化转型,但是还存在着功能不全面、数据可用性不强、内容模态较少、知识检索不全面、智能决策工具少、出版流程效率不高、信息推送不精准、科技成果不开放、知识服务能力差以及第三方数据库连接缺失等问题。
用户画像是对真实学术期刊用户信息的数学建模,是对用户“打标签”过程。用户画像是分析挖掘用户数据得来的,即是通过收集用户的基础属性、行为属性、场景属性等各个维度的数据,进而对用户特征属性进行刻画、分类、统计和特征提取,挖掘潜在信息价值,从而抽象出用户的信息全貌,是一种信息标签化了的用户模型。第1步,期刊用户数据的采集。通过自编程序、八爪鱼爬虫软件、深度访谈等方法进行数据采集。第2步,数据清洗与储存。利用聚类、分类对相似特征群体划分、利用关联规则对相似性对象数据关系进行构建,利用决策树协同过滤,利用向量空间模型算法实现数据挖掘和过滤。第三步,确定期刊用户标签。利用关联规则、标签评分、TF-IDF算法、社会网络分析等进行用户兴趣模型构建,利用数理统计、数据挖掘、机器学习等进行期刊用户属性特征分析,从而实现标签提取和重组。
学术期刊门户网站、数据库、微信公众号、社交网站等客户端和新媒体等共同构成期刊用户数据库。从3个方面采集用户源数据:①用户基础属性数据,如姓名、学校(单位)、职业(专业)、研究方向、性别、出生日期、居住地、联系方式等;②用户行为属性数据,如页面浏览、页面点击、论文搜索、论文收藏、论文转发和论文评论等,可以通过引文分析中的作者发文量、被引量、论文所发期刊分布、关键词排名等,收集作者对期刊的偏好、研究方向以及领域相关信息;③用户场景属性数据,通过GPS定位、无线射频等技术采集用户的时间、地理位置、社交关系、设备等信息,通过用户使用的终端(电脑/手机、浏览器类型、操作系统类型等)、使用的搜索引擎(谷歌学术、百度学术等),判断当前用户使用的是手机、电脑还是ipad,通过网页、微信还是客户端登录。
将通过多终端的埋点数据采集获取的海量数据对期刊用户的个人信息、行为信息、学术影响力信息等数据进行清洗和存储。第一,删除不需要的数据。即要过滤掉错误数据,删除无效多余的数据,规范得到能进一步分析利用的数据;第二,是修复结构性错误。清洗数据要处理缺失值和无效值,使得用户画像更准确。第三,将用户数据存储到用户基础属性数据库、用户行为属性数据库和用户场景特征数据库,通过编码转换、搜索分词处理、制定算法等处理采集到的数据。用户通过多种终端、多个平台在网络上留下痕迹,在进行数据处理时需要将不同来源的数据存储在统一标准的数据库中。
标签是某一种用户特征的符号表示,用户画像可以用标签的集合表示。标签的提取与重组直接影响用户画像的准确性。打标签是通过对用户高度精练的特征标识进行分析并模型化,将结构化的数据归类、聚合、统计分析、分配权重与构建画像标签体系。在用户基础属性、自我评估维度、用户行为属性、用户场景属性、用户社交关系维度等进行用户画像标签的划分。用户的点击、浏览、搜索、下载、引用、评论等行为是反映用户兴趣属性、影响力属性的用户画像依据。用户社交维度是通过考察社交关系建立起用户关联网络,掌握用户之间互动状况,捕捉互动过程中的内容再生产和评价。例如Springer Nature开发的Author Mapper可快速定位论文作者单位及其相关文章,能够实时分享学者对期刊的评价。
通过加标签的方式把庞杂的用户群具象化,建立模型框架,完善学者画像。学术期刊用户画像构建的难点在于建立标签体系、提取模型以及算法。用户画像一般包含4个属性维度:①个人信息属性,如年龄、性别、学历、职称、工作单位、研究方向、邮箱、电话等,可以表征学者的教育背景、学术工作年限、学术能力、学术发展、科研领域、科研机构水平等;②研究兴趣属性,如论文的摘要、关键词、发表时间、发表频次、使用终端、下载量、阅读量、转发量等可以表征学者的研究兴趣偏好;③学术影响力属性,如基金项目、科研获奖、论文、专著、h指数等;④社交属性,通过分析学者论文引用网络、学者合作网络、机构合作网络等实现对学者社交属性的判定。
智媒时代,选题策划通过知识图谱数据库、AI模型、用户画像、推荐算法等技术和用户精准连接,实现用户与信息的智能匹配。从海量用户日志和数据中快速提取有效信息并进行科学统计分析,根据用户搜索、下载、引用的趋势,参考用户的研究方向、研究兴趣,寻找最有研究价值的热点选题和研究焦点,精准地抓取学科热点、交叉学科以及学科前沿发展趋势,通过用户画像和需求分析可以不断优化。通过多源数据的合理配置提高选题策划的准确性和前沿性,实现稿件创新性检测、中英文自动转译、知识图谱应用和基于知识的精准搜索等。例如CiteSpace、 报备Histcite以及 BibExcel等智能工具能够利用文献的相互关系,以知识图谱形式追踪研究某个领域热点和发展趋势,了解研究领域的研究前沿及演进关键路径。
审稿评议智能化包括识别论文抄袭和剽窃行为、智能发掘审稿人,完成评审工作自动化等。在审稿阶段,学术不端自动检测、稿件创新性检测、审稿专家精准匹配以及论文智能审校系统已经慢慢实现,不仅可以通过用户画像技术快速匹配审稿专家,还可以实现筛查内容,减少剽窃、数据操纵及图片造假等更为精细的质量控制。审稿专家精准匹配系统作为学术同行评议领域智能辅助工具,利用稿件关键信息例如关键词及中图分类号等匹配智能专家库,通过审稿专家画像对接专家的研究领域,实现自动精准匹配审稿专家。例如,2015年Elsevier推出智能同行评审Evise,后又推出统计分析软件StatReviewer;Wiley和智能出版公司UNSILO开展合作,开发在线投审稿解决方案ScholarOne Manuscripts,利用机器学习和自动化技术来加快同行评议人与论文的匹配、减少退稿率和加快出版进程等。
学术期刊智能出版平台引入XML排版系统和协同编辑技术,实现了结构化数据自动排版和同步出版,支持同步审稿、在线校对。智能出版系统利用结构化算法对非结构化内容进行自动分析,借助语义碎片化技术,按照知识点对如稿件的题目、各级标题、正文段落、表格、表题、图片、图题以及公式和公式序号等内容元素进行XML结构化自动排版和知识结构化标引,将已有的文献内容切分成多个知识元,可以生成ePub、HTML、PDF 等多种排版格式文件,动态重组生产出基于用户画像的多模态出版物,实现“一次制作,多次、多平台发布”。人工智能和语义技术可以进行论文智能审校处理,完成文章逻辑检查、论文查重、纠正错别字、识别语法错误、敏感词检查、格式检查、知识性审校等工作。
按需印刷是伴随着智能化信息处理、远距离数据传输以及高密度存储技术的发展而产生的一种印刷方式,是一种基于智能排版、智能拼版和大数据用户画像的个性化定制印刷。从原材料管理、印前制版、印刷生产、印后加工、印品质量管理到最终出库交货均实现智能化。按需印刷从前端客户下单开始,只需要输入相应的关键词,对人工智能返回的内容进行个性化的筛选,通过大量的规范化数据、资源储备和智能系统相配合,根据数字资产管理系统的授权,按任意关键词将在数据库中的资源调用出来,即生产出相应的个性化的基于用户画像的多模态出版物,后端延伸至即时发货。按需出版可以使学术期刊出版的成本压力降至最低,实现高度灵活、高效运转的个性化、数字化的印刷服务。
大数据和用户画像能助力论文的精准推送和跨学科扩散,找到潜在读者群。用户需求从个性化服务的一般性满足上升为精准智慧层面,通过学习用户数据的知识需求并进行强关联的知识点挖掘,预测用户未来的知识需求,自动为用户提供精准化推送方案。这种精准推送首先根据用户研究方向、阅读习惯、浏览历史和用户身份等信息数据的抓取,以及研究的不同层次、学科的不同类型(基础学科、新兴学科等),利用学者画像形成学术关注度检索;然后,通过用户画像提取用户需求,进行知识的定期智能推荐和发送,包括论文、专著、资讯、实验数据等,通过反馈点击阅读数,进一步优化场景适配的信息推送。例如,Nature、Science等均与Trend MD合作,通过算法自动向读者精准推荐热点文章,学科前沿,编辑认为价值高的文章、专题以及下载量高的文章。
知识服务是以满足用户深层次需求和知识增值为目标,提供给用户的有价值的信息、知识产品或以知识为主的科学建议和服务方案。智媒体时代,知识服务是基于用户画像、大数据以及人工智能技术的,可以根据用户画像预测用户的行动,为研究人员提供面向科研立项、文献分析、项目实施、实验辅助、学术交流、成果撰写、发表推广、成果评价等整个科研生命周期的定制化服务和完整的解决方案,实现智慧化的信息服务。
知识检索服务是在传统文献资料的基础上,借助于机器学习技术、语义分析技术、数据挖掘技术,构建基于数据库、知识内容产品、学术社交化媒体产品和出版业务的知识图谱关联。知识检索系统的主要类型有全文数据库、专题数据库、题录数据库、引文数据库和图片数据库。这种知识服务是通过词频梳理、共词分析、知识抽取、聚类分析、高通量分析等文献计量等方法,将文献碎片化、概念图谱化后,构建相应学科知识图谱关联的“知识库”,利用知识图谱处理知识聚合及分散的演进路径,为读者提供学术趋势、知识脉络、学术关注的相关检索,并贯穿科学研究全生命周期。例如,Taylor &Francis推出科研影响力提升服务工具Kudos,可以追踪作者所分享的文章在Twitter、Facebook等平台的分享和评论情况,也可以查看文章的下载量、被引频次,全面评价文章的影响力[13] 。
知识推荐服务通过用户动态画像为基础的知识服务推荐模型,将传统的经验模式转化为数据驱动的强关联思维,运用大数据与协同过滤技术实时捕获并引导用户需求和服务。利用传感器技术、云计算技术、聚类分析技术等进行用户行为大数据的获取、清洗、处理、集成,通过关键词、学科分布、作者合作圈、同类别期刊作者群等采集用户阅读行为和检索信息,推荐与筛选科技情报服务方案,精准对接学术资源与用户的使用场景,帮助科研人员更快更全面地了解最新的研究现状、研究热点,推荐相关的期刊、专题文集等。例如Springer Nature推出的Recommended、Arxiv开发的E-mail Alert、RSSFeeds 等推荐定制服务。
科研决策工具作为学术期刊知识服务的一大门类,围绕科研工作选题、立项、写作、发表等不同阶段,提供给科研用户的操作便捷、提升效率的新型实用工具,依照功能大致可分为科研辅助工具、论文写作工具、行业应用工具和专业决策工具等。这些智能决策工具通过识别技术和算法推荐可以帮助科研人员追踪分析可视化研究成果、寻找咨询科研合作者、优化科研投入方式以及提高科研效率等。例如,Elsevier开发了100多个智能决策应用工具,如信息搜索和决策支持解决方案工具平台Knovel;工程热点问题回答工具Engineering Village,科研计划的管理工具SciVal、工程问题分析工具 Knove、评审专家查找工具Expert Lookup等。Springer开发了系列AI工具:图谱工具(scigraph)、实验方案工具SN Experiments、自动翻译服务工具DeepL AI、美国期刊专家 (American Journal Experts,AJE)以及一体化的数据存储共享存储库figshare等。
多媒体服务首要思考的是场景+内容来实现对科研过程多元化、系统化的展现,其次多媒体和人工智能的结合使得视听语音识别、视觉问答等多种多模态应用成为了可能。针对不同终端场景和不同应用场景,对文本、图形、图像、声音、动画、视频等多种信息综合处理、可以融合多媒体技术、全息投影、语音阅读、动态图技术,将产品音频化、视频化、3D化,甚至结合VR/AR技术等,配合数字化学术阅读场景,通过听和看实现增强现实和虚拟实境,可以向读者多模态立体化推送科研过程、研究成果等推动学术交流的数字化变革,为读者带来沉浸式体验,加强作者、编辑、用户的互动。国际期刊出版机构多元化数字展示形式包括:图文摘要(Graphical Abstract,Infographics,Visual Abstracts),视频摘要(Video Abstract),播客(Podcast)。例如,Nature、Science、CELL推出的内容音频Podcas,视频板块Science Video Portal,Nature Video等。
学术社交服务网络化是指通过一系列交流平台、学术资源和在线服务建立的以学术研究为核心的社交网络关系,旨在推进学术交流、合作应用、成果传播、科研评估。国际学术期刊出版平台主要链接YouTube、Twitter、Facebook、Mendeley、LinkedIn、WhatApps、微信、微博等社交媒体,通过大数据和用户画像对社交数据进行深度挖掘与学习,改变信息获取方式,实现资源管理、信息发布、成果推广、学术合作、成果应用、影响力分析以及学术提升等服务。社交网络服务主要形式包括:在线学术问答平台、在线讲堂、学术讲座、音视频直播平台、图文分析平台等,为学者解答在查找资源、论文写作、投稿中出现的各种问题,宣传学术出版的伦理道德、科技论文的图表制作等。例如,Nature、Science、Cell 等通过学术短视频运营和YouTube、Facebook、Twitter、B站、微博、微信形成跨媒体矩阵组合,提高学术传播力。
OA 获取包括开放数据、开放指标、学术诚信和可重复性,以及开放工具和软件,人工智能促进数据、成果和知识等更快更广更充分地传播。基于共享和合作的开放服务已成为学术期刊出版数字化出版发展的主流趋势。Springer Nature一直处于OA出版领域的领导地位,其SharedIt 内容共享倡议,鼓励研究人员自由地与公众分享研究论文,论文共享链接可以在社交媒体、专业网站、博客等地张贴,促进了研究成果的传播,2021年收购了全球开放获取出版品牌AtlantisPress,发表了100 万篇金色开放获取论文。2021年Elsevier推出了11.9 万篇开放获取文章,金色OA刊已达600多种。Wiley通过收购开放获取Hindawi公司实现OA收入增长40%,OA期刊数量增加200多种。Taylor &Francis收购开放科学研究平台F1000 Research提高开放获取力度,其OA期刊已增至275种[14]。
全流程智能学术期刊出版平台能够整合数字出版产业链的各个环节,充分挖掘用户数据、资源数据、平台数据并分析用户需求,建立用户画像的数据库,利用数据挖掘对用户数据之间的关系进行分析,发掘了表面上复杂无序信息的联系,将用户画像和智能技术应用于出版流程的创新和知识服务领域,学术出版机构直接进入出版价值链的终端,提高了出版机构的核心竞争力。全流程智能学术期刊出版系统的构架如图1所示,主要包括出版流程内部维度和知识服务外部维度。全流程智能学术期刊出版平台不仅提升了组稿、审稿、编校、印刷、发布的出版流程环节的生产效率,而且提升了文献检索、知识发现、科研决策、多媒体服务和开放共享服务能力,对接国际主流期刊数据库、第三方知识发现平台、社交媒体,实现了文献检索与学术发现、知识精准推送与定制阅读、学术推广与分析评价、OA获取全新布局等,打通了全链条数字出版服务,为海外传播搭建桥梁,提升了国际影响力。
图1 全流程智能学术期刊出版系统的构架
Figure 1 Architecture of a whole-process intelligent
academic publishing system
智能媒体时代,构建以用户需求为中心,以用户画像、大数据和人工智能为手段的强搜索、集成化、多功能、开放化、智能化的学术期刊智能出版平台是中国学术期刊融合出版发展的必然趋势。选题策划高效化、审稿评议智能化、编排校对自动化、生产印刷按需化、营销推动精准化以及知识服务图谱化、定制化、社交化、场景化、工具化、共享化是学术期刊智能出版融合发展的方向。建立人机协同创新的生产管理流程,提高数字内容生产、出版流程管控、发行传播的智能水平,提高知识管理和决策建议服务能力,最终实现知识服务的行为智能化、思维智慧化、场景可视化和途径多元化的传播生态。
[1] 中共中央宣传部,教育部,科技部.《关于推动学术期刊繁荣发展的意见》的通知[EB/OL].(2021-06-23)[2022-12-16].https:∥www.nppa.gov.cn/nppa/contents/ 312/ 76209.shtml.
Propaganda Department, Ministry of Education, Ministry of Science and Technology. Notice on opinions on promoting the prosperity and development of academic journals[EB/OL].(2021-06-23)[2022-12-16].https:∥ www.nppa.gov.cn/nppa/contents/ 312/76209.shtml.
[2] Association for Educational Communications &Technology. Techtrends 2022[EB/OL].[2022-12-15]. http:∥www.stmassoc.org/standards technology/Tech-trends-2022.
[3] 刘晓莉. 中外科技学术期刊国际化出版比较研究[D]. 西安: 长安大学, 2015.
LIU X L. A comparative study on international publication of academic journal of science and technology between China and foreign countries[D]. Xi′an: Chang′an University, 2015.
[4] 渠竞帆. 海外出版商在用AI做什么?[N]. 中国出版传媒商报, 2020-11-13(1).
QU J F. What are overseas publishers doing with AI? [N]. China Publishing Media Business News, 2020-11-13 (1).
[5] 向飒. 国外学术出版集团数字化和智能化发展现状及我国对策建议[J]. 中国科技期刊研究, 2019, 30(7): 740-744.
XIANG S. Digitalization and intelligence development status of foreign academic publishing group and China′s countermeasures and suggestions[J]. Chinese Journal of Scientific and Technical Periodicals, 2019, 30(7): 740-744.
[6] HUANG Y, PORTER A L, CUNNINGHAM S W, et al. A technology delivery system for characterizing the supply side of technology emergence: illustrated for big data &analytics[J]. Technological Forecasting and Social Change, 2018, 130: 165-176.
[7] John Wiley &Sons, Inc.. 2021 supplemental report [R/OL].(2021-04-17)[2022-12-06]. https:∥s27.q4cdn.com/812717746/files/doc_financials/2021/ar/Wiley-Proxy-2021.pdf.
[8] Wikipedia.Elsevier[EB/OL].(2021-04-03)[2022-12-16].http:∥en.volupedia.org/wiki/Elsevier.
[9] 中国科学技术协会. 中国科技期刊发展蓝皮书(2020)[M]. 北京: 科学出版社, 2020.
China Association for Science and Technology. Blue book of China sci-tech journals development(2020)[M]. Beijing: Science Press, 2020.
[10] 郁林羲, 郑晓南, 丁佐奇. 爱思唯尔出版集团全球设奖情况及策略评述[J]. 出版科学, 2020, 28(2): 108-114.
YU L X, ZHENG X N, DING Z Q. A review of Elsevier′s award and its implications[J]. Publishing Journal, 2020, 28(2): 108-114.
[11] 徐芳, 应洁茹. 国内外用户画像研究综述[J]. 图书馆学研究, 2020(12): 7-16.
XU F, YING J R. A review of user profile research at home and abroad[J]. Research on Library Science, 2020(12): 7-16.
[12] 袁舒婕.SciEngine学术期刊全流程数字出版与知识服务平台:致力于实现我国科技出版“造船出海”[N].中国新闻出版广电报,2022-10-10(8).
YUAN S J. SciEngine academic journals full-process digital publishing and knowledge service platform: committed to achieving china′s scientific and technological publishing "shipbuilding and sailing" [N]. China Press, Publication, Radio and Television News, 2022-10-10(8).
[13] 沈锡宾, 刘红霞, 李鹏, 等. 数字化环境下中国科技期刊知识服务模式探析[J]. 编辑学报, 2019, 31(1): 11-16.
SHEN X B, LIU H X, LI P, et al. Analysis on the knowledge service mode of Chinese scientific journals under the digital environment[J]. Acta Editologica, 2019, 31(1): 11-16.
[14] 向飒. 人工智能对学术期刊智能化转型与融合发展的赋能[J]. 出版广角, 2022(18): 81-84.
XIANG S. Artificial intelligence empowers the intelligent transformation and integrated development of academic journals[J]. View on Publishing, 2022(18): 81-84.