Login

400-123-6666admin@gdmas.cn

  1. 华体会体育 > 新闻动态

华体会体育古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授

作者:小编 日期:2024-02-16 04:50:05 点击数:

  华体会体育古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授:郑老师,您多年来一直从事数字人文方面的实践工作和理论探索,尤其参加了古典文献数字化早期的实践工作。像2004年,您参与创建了中国社科院文学研究所“数字信息工作室”;2006年,您主持建立了社科院“元代文献数据库”;且您多次参加了“中国古籍数字化国际学术研讨会”并阐发了很多关于“数字文献数据库建设”的理论思考。我们注意到,您的思考是随着科学技术的发展和文献数据库建设的实践而发生变化的。希望您能给我们简单介绍一下近年来古典文献数字化的发展方向、目前达到的水平和面临的困境。

  郑永晓(以下简称“郑”):在我国,古籍文献数据库建设已经有30余年的发展历史。由于我国历史悠久,历朝历代积累的文献如汗牛充栋,治文史的学者面对浩繁的文献,往往只能选取自己感兴趣,且便于阅读的那部分进行阅读和研究。当然也有部分特别严谨和勤奋的学者经常到图书馆阅览,使用缩微胶片阅读机阅读善本、孤本等,但毕竟费时费力。另外,有些大型总集、类书,如《永乐大典》《古今图书集成》等,有时并不需要精读,但是其中含有很丰富有价值的文献资料,有时想快速查询到某个具体的文献也颇为不易。因此,当电子计算机这一新生事物在20世纪70年代末80年代初传入我国的时候,部分有远见的学者看到了计算机在处理古籍文献方面的潜在优势。

  《国外社会科学》1979年第1期刊发了署名“力一”的《苏联学者谈电子计算机用于人文科学》,编译介绍了苏联《高等学校通讯》1978年第5期刊载的M·安德柳辛科介绍计算机用于人文科学的一篇文章。文章谈到,当时已经有若干人文学科积累了使用计算机的经验,如“历史学,对史料、考古学资料及民族志资料的信息加工。”又如“语文学:统计修辞学,确定作者,统计词典学”。文章特别提到,人文科学家研究方法与其他领域科学探索的方法颇有不同,因此有必要在高校和科研院所中设立专门的、用以解决人文科学任务的计算中心。次年,该刊又编译发表了《法国〈世界报〉谈电子计算机进入人文科学问题》一文,介绍了法国国立科学研究中心于1975年成立人文科学电子计算机实验室的情况。国外的这些信息可能激发了国内部分学者的兴趣,他们也开始关注并尝试将计算机技术应用于人文研究。

  1985年,镇江市科委与东南大学(原南京工学院)合作完成了《红楼梦》数据库,深圳大学完成了《红楼梦多功能检索系统》。专家们认为:“《红楼梦》数据库的创建,是一项创造性的劳动,成绩卓著,不仅对红学,而且对于整个社会科学和文学艺术的研究均有促进和启迪作用。”(见彭昆仑《科学技术与红楼梦》,《红楼梦学刊》1995年第4期)

  1978至1980年,钱钟书、杨绛先生的独生爱女钱瑗到英国访学,向父母说起英国用电脑储存莎士比亚资料与查阅资料的各种功能。钱先生立刻敏锐地意识到这一新鲜事物的意义,便提议文学研究所成立计算机室,希望其走向世界。自1985年起,钱先生助手栾贵明带领的团队在这一领域进行了艰苦卓绝的努力。他们研发的“全唐诗速检系统”还获得了1990年“国家科技进步奖”三等奖。但可惜这些文献数据库工程由于建设理念等方面的制约和缺乏商业化运作,没能在更大范围内推广开来。

  至上世纪90年代后期,古籍文献数据库的建设进入快车道。1996年,书同文公司启动的文渊阁《四库全书》电子版是一项重要标志性工程。该工程动用300名校录人员、60名技术、学术和管理人员,历时三年多始告完成。这个软件能运行于多种版本的windows平台,且能够坚持文献原文图片与全文并存对照的模式。它既便于使用,也最大限度地避免引用文献而难以核对原文的尴尬。进入本世纪,书同文公司又相继完成了《四部丛刊》《四部备要》等文献的数字化工作。

  国学时代文化传播公司的《国学宝典》系列、北京爱如生数字化技术研究中心的《中国基本古籍库》等也都是上个世纪90年代末启动的古籍文献数字化工程。2014年,中华书局推出《中华经典古籍库》,次年成立古联(北京)数字传媒科技有限公司,主营《中华经典古籍库》的研发和推广。另外,中日专家联合开发的《雕龙——中国日本古籍全文检索数据库》在方志文献的收录方面颇具特色。这些都是当前比较流行的古籍文献数据库。

  应该说,近20年来,我国在古籍文献数字化和古籍数据库建设方面的成就是巨大的,也在一定意义上推动了学术的发展。但是,目前古籍数据库的建设也面临一个发展的瓶颈,虽然像《中华经典古籍库》《四部丛刊》等挂接联机字典、年代转换、批注等各种工具,很有实用价值,但是从根本上说,这些数据库的主体内容属于非结构化数据,除全文检索外,并不能协助学者完成其他工作。另外,我国古籍文献虽然数量浩如烟海,但总有完全数字化的那一天。因此,对古籍文献数据库进行升级换代势在必行。

  未来的古籍文献数据库应结合数据挖掘技术、自然语言处理技术以及相关学者的深度参与,在古籍词频分析、版本分析比较、计算机辅助句读等方面有切实的进展。换言之,即充分利用人工智能、大数据等最新技术,力求完力所难以完成的宏观分析和微观比较等工作。它不应该仅仅是一个查询检索工具,更应该能协助学者进行度的统计、比较、分析,产生新的知识和思想。

  段:我们在关注、使用文献数据库的过程中,发现目前我们在古典文献的数字化过程中,古籍数据库建设大概有三种趋势。

  第一是,专题性数据平台建设不断得到扩充。除了“中国金石总录数据库”“中国地方志数据库”“中国家谱族谱数据库”,还有依托地方文献的数据库建设不断在补充,如2018年西北民族大学开始建设的“敦煌古藏文文献数据库”,西南民族大学“《格萨(斯)尔》图像文化调查研究及数据库建设”,2019年5月11号黑龙江大学通过“中国满通古斯语言语料数据库建设及研究”项目等。可以说,在这个方面,地方性、专题性数据库建设逐渐形成规模,并且地方高校在这方面发挥了重要的作用。

  第二是,整合式文献数据库的建设有了很大的成果,“中华基本古籍库”“中国历代诗歌数据库”等都是内容丰富、规模宏大的数据库。还有专家提议建设“中国古典知识库”等综合性、整体性的数据库。

  第三是,服务于特定研究项目的个性化、订制化数据库的兴起。这个方面主要是一些营利性的计算机科技单位或者拥有相关技术的个人承接的比较小的项目。在研究者与特定机构沟通过程中,由研究者提供数据库所需要的文本,并阐明希望该数据库应该具备什么样的检索功能和结果呈现方式,而拥有技术的相应机构或者个人进行研发。这种私人订制式的数据库为学人在特定研究对象尚未建成综合性数据时,提供了诸多的方便。当然,这种类型的数据库比较小,也尚未形成产业化。

  这三种趋势,是我们作为数据库使用者形成的比较直观的认知,不是十分的严谨。能不能请您就这个问题作进一步的阐述,或者指出我们的认知误区,让我们拨云见日,有一个更深理性的认识。

  郑:“拨云见日”谈不上,谈一点我自己的感想吧。就近30年来数据库建设的历史和经验观察,质量最高、社会效益最好的是商业运作的数据库。因为数据库的建设需要资金和人才的高投入,费时费力还容易被盗版,没有足够的资金很难维持正常运营。科研机构和高校开发的专题数据库较多,在文献数据库建设方面也作出了重要贡献。目前业界有人呼吁应打通各数据库之间的界限,或者至少应预留各数据库之间能够对接其他数据库的标准接口。因为产权等方面的制约,目前我还看不到打通各数据库之间的迹象。但是我国随着综合国力的强盛,学术繁荣的需求和开发者经济利益的驱动,应该会倒逼这种打通,比如在保证各方权益的基础上,通过兼并重组等形式把重要的文献数据库整合起来。至于个性化、订制化数据库,应该是一些较小的专题数据库,可以作为数据库建设的有益补充吧。

  段:中国古典文献学素来比较重视文献的分类和目录,如《汉书艺文志》《隋书经籍志》等这类史志目录,《郡斋读书志》等这类私家目录,《四库全书总目》等这类国家书目,都比较清晰地著录了古代典籍情况。章学诚提出“辨章学术、考镜源流”,为目录及目录学在中国古典文献学当中的重要价值和意义作了精要概述。目录一方面能够反映出一定历史时期的著述面貌和学术活动,另一方面,目录,尤其是“小序”“提要”对学术史的梳理也有重要意义。

  数据库的建设发展,改变了传统文献如丛书、类书等书籍整合方式。与此相适应的,文献的目录、分类也受到了影响。我们在使用诸多数据库,比如《国学宝典》《中华基本古籍库》《中国哲学电子书计划》等数据库时,都比较清晰地体会到,大数据储存和检索功能,不仅可以提取相应著作,而且还可以穷尽式提取具体关键词的所有信息。但是,古籍数据库打破了传统古籍的分类局面,也就无法通过某一类典籍梳理相关学术史。同时,部分数据库建设的过程中,相关单位和学者也多次提到,兼通文献学和计算机专业的人才相对比较缺失,并提议应该将有志于此方面工作的学子由文学、文献学和计算机专业等其他学科联合培养。

  IT时代的古籍数字化确实需要我们去建立新的学科体系,来正确认识并解决随时出现的问题。在您和其他学者关于文献数字化的实践和理论探索中,也提到“基于传统目录学的古籍文献数据库建设”的思考以及“数字文献学”这个新兴的学科,请您具体跟我们讲讲这个学科领域。

  郑:所谓“基于传统目录学的古籍文献数据库建设”,实际上是希望数据库建设由目前基于纯文本的、主要功能为检索查询的数据库向专家学者深度参与的知识库转变。希望能够借助数据挖掘技术和人工标引等工作,把目前的数据库建设向“专家系统”过渡。“专家系统”是人工智能中的一个领域,目前应用在工程、自然科学、医药、军事、商业等领域。我们把这样的技术和理念引入文献数据库中,就使得数据库不再仅仅是一个检索工具,而且可以引导初学者的治学和资深学者的深度研究。而在这一过程中,传统目录学所倡导的“辨章学术、考镜源流”等理念可以给我们很好的启示。当然,按照传统目录学的方式建设数据库与文献数据在计算机系统中的物理排列方式无关,只是一种逻辑的或虚拟的排列。

  传统意义上的古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,分析、整理、研究中国古代文献规律与研究方法的学科。其中的大部分内容如目录、校勘、辨伪、辑佚、编纂、检索等在计算机时代都面临着与时俱进和转型的需要。现在从事这方面的工作不借助于计算机是不可想象的。

  鉴于数字文献本身的特性、数字文献与传统文献的关系、数字文献使用过程中如何趋利避害等问题亟须研究和解决,就需要把“数字文献”与传统文献区别开来单独进行研究,于是有“数字文献学”一词的出现。2008年3月厦门出版社的王依民先生在其博客《开宗明义:什么是数码文献学?》一文中,提出将数码文献学、数字文献学、电子文献学这三种名称之含义视为完全相同的原则。

  2009年,我在《中国社会科学院特殊学科建设项目申报书》中向院科研局提出了资助“数字文献学”这一特殊新兴学科和前沿学科的申请,虽未获批准,但相关部门终于将“数字文献学”列入了社科院特殊学科目录。

  近年来,数字人文研究在国内外都相当火热。数字人文的含义比较广泛,涉及一切可以应用计算机介入到传统人文学科的领域,如哲学、历史、文学、音乐、艺术、考古、宗教等等。“数字文献学”是“历史文献学”和“古典文献学”在数字信息时代的自然延伸,也可以看作是数字人文研究的一个分支。

  数字文献学的出现将有助于传统文献学生发出新的学术增长点,同时对中国古典文学、中国历史、中国哲学史等传统文史类学科的发展产生重要影响。

  段:您刚才谈到“数字文献学”可以视作数字人文的一个分支。那么请您具体解释一下数字人文是个什么样的概念?其在国内外发展情况如何?

  郑:数字人文(Digital humanities),维基百科中文版给出的定义是:“电脑运算或资讯科技与人文学的交叉学科。可以被定义为以合作、跨学科与电脑运算等新方法来进行人文学的研究、教学、出版等学术工作。数位人文学将数位工具与方法带进人文学中,并认为印刷书不再是知识生产与传布的主要媒介。”“数位人文学的显著特征之一,是其对人文学与资讯科技双方关系的深化:透过科技进行人文研究,以及以人文学方法来研究科技对人的影响。”这个版本显然出自作者之手,所言大体不误。但是这只是其中一种说法,事实上,关于数字人文,学界尚未有统一的标准。数字人文的定义也由于其持续发展和开放的特性,或者很快就会出现新的定义。

  大体而言,数字人文自“人文计算”(Humanities Computing)发展而来,使用数字化的资料和数字原生资料,结合传统人文学科如历史学、哲学、文学、艺术、考古学、文化研究与社会科学的方,以计算机运算所提供的工具,如超文本、超媒体、图像、文献检索、数据挖掘、统计等,进行综合性研究。

  “人文计算”可以追溯至1940年代末,其时耶稣会士Roberto Busa 及其助手与IBM公司合作,利用计算机制作了中世纪哲学家、神学家汤玛斯·阿奎那著作的索引,称为“Index Thomisticus”。

  Roberto Busa之后,不断有学者利用计算机从事检索、排序、统计工作,包括考古、历史、文学等领域的学者都有参与其中。

  从“人文计算”到“数字人文学”的用词转变,始于2004年John Unsworth等人所编的文选《数字人文搭档》(A Companion to Digital Humanities)。该书强调此领域并非“仅仅是数字化”,它至少包括两方面的内容:即“以现代人文方法来研究数字化对象”和以“信息科学方法来研究传统人文问题”。

  本世纪以来,数字人文研究在国际上十分流行,各种数字人文研究学会和专门的研究中心遍布全球。截至2019年5月,数字人文合作组织“数字人文中心网络”(centerNet)所收录的数字人文中心已达200余个,覆盖30余个国家和地区,多数在美国、加拿大、欧洲和澳大利亚等国家和地区。有若干协会组织,目前国际上最大的数字人文组织为国际数字人文组织联盟(The Alliance of Digital Humanities Organizations),成立于2005年,并且出版专门刊物《数字人文季刊》(Digital Humanities Quarterly)。

  需要注意的是,在“数字人文”这一名词被介绍到中国之前,无论是还是,都已有这方面的研究,包括关于古籍数字化的研究等。前面所说“数字文献学”可以视作数字人文研究的一个分支,也是基于这一事实。

  我个人认为,数字人文既具有工具属性,也是一门交叉学科、新兴学科和前沿学科。其目的在于研究那些需要借助信息技术才能进行的研究,换言之,借助信息技术对传统人文研究进行升级转型,并试图寻求在前数字时代难以发现的研究对象、研究议题。

  段:通过您的阐述和说明,我们看到了数字人文研究的大趋势,也看到了技术驱动研究的重要作用。信息技术作为一种研究的工具,其本身是为研究而服务的。研究的目的,决定了我们对相应技术的选择。如利用OCR(图像识别)技术进行文献录入;利用GIS技术研究地域文学、家族文学、绘制相关诗人或诗人群体活动行迹图;利用数据检索研究作品重出、具体作家作品在后世的接受;利用人工智能技术笺注、校订别集等。在相关的研究当中,学术界正在意识到,古籍数字化和人工智能等技术的发展,使笺注、校订等这类文献整理基础工作,可能逐渐被计算机人工智能实现而边缘化,最后可能走出古典文学基础研究的舞台。对这个问题,您怎么看?

  郑:古代文学研究含义比较广泛,至少应包括古典文献研究、文学史研究、文学批评(思想)史研究等几个方面。其中在古典文献研究方面,计算机可能发挥的效用最大。伴随计算机智能程度的提高,尤其是自然语言处理技术的发展,计算机通过大量学习人工句读,大体上可以实现机器自动标点工作。而像笺注、校订等工作也可以交由计算机处理。当然,这样的技术目前还不是很成熟,但假以时日,这个愿望并不难实现。

  段:刚才我们提到因检索功能为学术研究搜集文献材料提供了便利,使古代文学在宏观整体研究上有了突破。以前仅通过一人或几人之力无法完成的研究目标,现在可以并且比较容易地开展。如浙江大学与哈佛大学共同建设的“学术地图发布平台”,其中如《全宋文》《全元文》《全元诗》作者分布图、具体诗人行迹图等成果就是典型。并且其开放的编辑平台也为研究者在自己创建数据库基础上生成学术地图、进一步展开研究提供了极大的便利。这个方面应该可以算是数据库建设对我们古代文学研究内容上带来的比较明显的改变吧。

  郑:地理信息系统(GIS)经过数十年的发展,已经是比较成熟的技术。GIS的一个重要功能是空间分析,对系统中的人物、位置、联系进行分析,当数据量很小时,这种分析意义不大,与人工处理没什么不同。但是当数据量很大时,比如收录的作家信息不是几百几千,而是自先秦至近现代以来的数万个作家,包括其族群、行迹、交游、创作、作品传播等信息,所收录的作品也不仅仅是《全宋文》《全元文》《全元诗》等,而是尽可能完备的先秦至清末所有的文献。当我们设定某个时间点启动系统进行分析时,我们观察到的可能不仅仅是某位作家的静态信息,还能看到该时段几乎所有活跃作家的静止或移动信息。

  例如元军攻陷临安(杭州)后的二三十年间,以关汉卿、白朴、马致远为代表的北方作家向杭州迁移,同时杭州本土作家或作为遗民,追怀宋室,或降元谋求新的出路。族群迁徙、文化碰撞、南北交流在这几十年间堪称跌宕起伏、异彩纷呈。如果有这一时段的人口和作家历史地理信息数据库,我们一定可以发现传统研究方法易忽略的细节和人口及作家文人流动的趋势等比较精确的数据。这些信息是依靠传统个案研究或作家群体研究所不能得到的。

  段:从刚才与您的谈话,我们可以看出,数字人文研究似乎正在逐渐打破学科间的界限,这应该和数据库的建设之间有紧密关系。现在面世的古籍数据库,大多以古籍为数字化对象,而不是以现在通行的学科类别为区分标准,这就使得数字化古籍库在一定程度上模糊了学科分类,结果就是消解了历史、文学、哲学等学科间的材料隔膜,从而使得跨文化研究、跨学科研究成为了一种趋势。就古代文学研究而言,我们关注到,2019年3月国家社科基金重大项目“中国古代都城文化与古代文学及相关文献研究”的开题报告会上,您和诸多学者都指出:“全面辑录与中国古代都城制度、空间、文化以及文学相关的文献资源,基于全文检索、智能关联、知识服务三项功能,建立古代都城文化与文学专题文献资源数据库。”是相关研究的重要前提和基础。可见利用数据库建设来为特定文学研究对象服务的意识以及跨学科的研究已经逐渐成为一种科研方法。这对我们以后的研究角度或者研究思路上还应该有哪些启发?

  郑:古代文学研究,文献是重要的基础,是前提。过去我们的研究因为没有数据库的支撑,只能选择标志性作家和代表性作品进行个案研究,而文学史研究不过是若干个代表性作家作品的组合。这些研究当然很有意义,但也存在着证据欠充分、易于忽略非代表性作家和作品的弊端。所谓代表性作家和作品,可分为两种情况,一种是在当时产生重要影响,在文学史上地位突出。一种是在当时默默无闻,但是我们今天因为文艺思想观念的变化而感觉很了不起的作家作品。因此,所谓代表性作家作品是否具有代表性,有时是后知后觉的产物,未必符合文学发生时的现场场景。而数据库的建立,一方面可以最大限度地收集该领域的所有文献,很自然地为相关研究在深度和广度上打下很好的基础。同时,利用计算机的自动分词和统计功能,有可能发现传统研究范式下所不易发现的问题。

  段:文献基础是古代文学研究的一个重要方面,我们通过您全面、详细的阐述可以说有了比较清晰的认识。那另一个方面,关于数字人文研究对古代文学研究思维的影响,您也多次提到过要从“数字化”走向“数据化”,要有“大数据思维”。大数据技术在我们的认知当中,好像对理工科的研究推进比较快,但对我们文科的研究,尤其是我们古代文学的研究还是比较慢的。这种大数据思维主要指的是什么呢?是在古代文学全部文本资料基础上展开研究吗?还是强调整体性、宏观性的研究?您是这方面的专家,想请您就这些疑问作一个解答。

  郑:所谓“大数据”(Big Data),维基百科的解释是“所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”“由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。”

  大数据时代需要处理的数据如此之多,速度要求如此之快,则有可能造成我们不再热衷于追求细节的精确度而是注重于事物的发展趋势,并在宏观层面展现出较之以往更深刻的洞察力和预见力。在大数据称雄的数据海洋中,精确的结构化数据只占极少部分,大量非结构化数据成为有待开采的金矿。而要处理大数据,就必须一定程度上接受不精确性。因此,我们需要放弃传统的追求确凿无疑的思维方式,放弃对一些局部或细节真实性的追求,转而追求对概率和趋势的认知。纷繁而小有瑕疵的大数据所得出的结论较之无瑕疵的小数据得出的结论更为可靠和科学。

  大数据思维应用于古代文学研究,我以为主要有两个关键点。其一是必须将研究建立在足够数量的文献基础之上。没有数据谈不上运用大数据思维。过去我们的研究习惯于归纳出几个证据,然后得出自己的观点华体会体育(中国)hth·官方网站。在大数据时代,这样的研究方式显得有些以偏概全。应该把证据驱动转化为数据驱动。其二是要有大数据的思维方式,最主要的是放弃对一些局部或细节真实性的追求,转而追求对概率和趋势的认知。比如关于唐宋诗风格体式的异同,缪钺先生和钱钟书先生等已有很好的阐述,如果我们用计算机通过对《全唐诗》和《全宋诗》的字词、句法、情感表达方式等方面的提取统计,也有可能得出一个关于唐宋诗主要风格体式异同的结论。这只是基于唐宋全部诗歌所作的一种宏观性的分析和描述,没必要举出一些极端的例子去反驳这个结论。因为本来宋诗中有些作品与唐诗无异,而唐诗作家中如杜甫、韩愈等开宋诗法门,其部分作品也具有宋诗的特点。

  段:您做黄庭坚研究,用到这方面的技术吗?或者您最近做的论文,有用到这种方法吗?能不能给我们举一个这方面的实践例证。

  郑:做黄庭坚研究的时候还用不到这些,那时候技术还没有发展到这一步。最近我用大数据思维方式来做的是关于《佩文韵府》的研究。像《佩文韵府》这样的书,拿放大镜都看不清楚,那只是过去写诗的人参考这个书看看有哪些韵,某个韵它有什么例子。现在已经没有人用这个了,而且字太小也看不清。但是现在建一个数据库来做一些研究,我们就能够让它发挥余热了。

  《佩文韵府》编修的那个时间段,康熙比较喜欢唐诗,可是编辑组的成员大部分来自江浙地区,那一带宋诗的文化背景比较厚,所以他们中的很多人比较喜欢宋诗。当时诗坛提倡唐诗的王士祯离开了权力中心,主张宋诗的查慎行却深得康熙的喜爱。我们试图弄清楚,在各种因素交织下,当时北京的这些关键人物,他们选唐诗多还是选宋诗多,就可以得出唐诗跟宋诗在这个时段谁更受欢迎。

  综合研究之后我得出一个数值,《佩文韵府》中选的唐诗是宋诗的1.9倍左右,可见康熙后期,文人宗唐之风还是很明显的。当然了,这个数值还不十分精确。首先,《佩文韵府》是在前人基础上编的。其次,里边还经常有错误,比如具体作品和诗人之间就存在张冠李戴的情况。所以我们认为他不精确。但是,就像刚才我说的,因为数据已经很大了,所以少量的不精确,不妨碍结论的正确。因此《佩文韵府》通过不十分精确的大数据分析的方法,相比根据几个精确的数值和例举个别作品用归纳法得出来的结论更可靠。这个1.9倍左右的结论,确实不够精确,但它是严格意义上近似于正确,并且就目前来讲,这是最精确的一个数值了华体会体育(中国)hth·官方网站。我们传统的研究方法是不能得出这个结论的。

  段:您结合古籍数字化、数字人文研究来做古代文学研究的方法确实比传统的方法在某些方面有一些优势。但毕竟科学是一把双刃剑,古籍数字化给大部分科研工作者带来了研究的便利,也拓宽、改变了学术研究的思维方式。不可回避的是,它同时也带来了一些问题,比如相关论文中各种数据、图表的泛化现象,用“检索代替研究”“技术伪装学问”等就是突出的问题。检索使得生成数据比较容易,可是对相应原因的分析则比较欠缺。此外,还涉及研究成果中文献利用或者说引用的规范性、版权问题等。在学术界呼吁净化学术环境的大背景下,也想请您谈谈这个问题。

  郑:这个问题也很重要。我个人认为部分论文中满眼都是各种数据、图表,而实际上没有多少建立在数据之上的分析,并不是一个好的现象。用“检索代替研究”“技术伪装学问”等确实需要引起学界的警惕。通过电脑检索拼凑出一大堆材料不是严谨的学术研究。目前网上的电子书很多没有版本说明,即使质量较高的数据库也因机器识别和人工校对的不严谨而差错率较高。使用这些文献,必须与原版本文献至少是扫描的图片文献对照,否则极易出现问题华体会体育(中国)hth·官方网站。古代文学研究,需要我们研究者与古代作家建立心灵的对话,需要对作品有良好的感悟能力,才能对古代文学现象作出有深度的阐发。前《文学遗产》主编陶文鹏先生就对满篇都是通过检索罗列出的各种文献,而没有思想、没有艺术分析的论文很不满,斥之为“电脑体”,我对此很赞同。

  数字人文研究对我们研究的思维方式、治学范式一定是有影响的。它当然也有些弊端,也需要我们反思会不会带来一些问题。不能说这事情好,就把它捧到天上去,还是需要时时刻刻反思,也需要互相补充。但是总体来说,技术的发展是不可阻挡的,不是说你不用这个东西就意味着它不好。技术驱动研究、数据驱动研究肯定是一个方向。它现在不能代替所有的传统方法,但是肯定会带来哪些新的研究思路,会有不一样的研究效果。它会给我们传统的研究带来哪些新的启示,为我们学术研究提供一些什么新的方法,或者能解决哪些我们老的方法解决不了的问题,这才是关键,更是我们需要探索的。

  我们提倡关注数字人文研究,不能只有数字而没有人文,归根到底它应该还是人文研究,需要保持人文研究的根本属性和基本特点。技术和数据驱动是为了让我们的研究建立在更坚实的科学依据之上,是为了让我们的学术观点更具有说服力,也是为了让人文研究在新时期焕发出新的生命力。

  段:您刚才谈到不能只有数字而没有人文。正如人们担心人工智能是否有一天会强大到人类不能控制,做出不利于人类的事情。那么数字人文应用于文学研究,是否有什么局限?或者说我们是否应该担心它会对人文精神造成戕害?我们是否应该为这种新的学术方法、学术范式规定某种边界?

  郑:这种担心有一定道理,关键是如何趋利避害。诚然,数字人文的目的是通过这种新的方法去解决一些传统方法不能解决或解决不好的问题,并非要完全取代传统人文研究,也不可能完全取代传统研究。我们不要试图将二者对立起来。如果运用得当,数字人文应能够促进人文精神的弘扬而不是阻碍、妨害人文精神。以最具个性化的也是最具人文特点的文学作品鉴赏为例,固然是我们借由作品与古代作家进行的心灵对话,似乎与冷冰冰的计算机毫无关系,但是有计算机的帮助效果可能不一样。我们阅读一首诗词,有时感觉很美,但往往知其然而不知其所以然。而机器可以帮助我们了解那些字面意义背后的东西,让我们能够更深一层地理解字面后面所潜藏的文化积淀,也就更能理解一首诗词美在何处。比如我们读纳兰性德词《点绛唇·寄南海梁药亭》:“一帽征尘,留君不住从君去。片帆何处,南浦沉香雨。”稍有文学常识的人都会联想到屈原《河伯》:“送美人兮南浦。”江淹《别赋》:“春草碧色,春水渌波,送君南浦,伤如之何!”白居易《南浦别》诗:“南浦凄凄别,西风袅袅秋。”但计算机可能做得更多,它会把与“南浦”相近似的“隋堤”“灞桥”“长亭”“阳关”等聚在一起,分析这些表达离别的意象相似、相异之处,统计它们被历代作家使用次数的多寡,并将这些信息共同呈现给读者。有了计算机的帮助,读者对文学作品的理解应该更为深入,而不是相反。

  当然,我们仍有必要经常提醒数字人文是否会有某种局限性和弊端。我个人认为,技术的发展不以人的意志为转移,不管是否喜欢,伴随计算机科学的发展和人工智能技术的更为成熟,数字人文这种研究方法必将成为未来引领学术发展的一个新的增长点,但是我们不能把数字人文当作万能的工具,超越其所能够发挥作用的范围,不要试图使用这种方法去解决所有人文科学中的问题,只有那些适合使用数字人文解决的问题,应用这种方法才是可行的。同时我们应对目前比较流行的数字人文理论保持必要的反思。比如对斯坦福大学弗朗科·莫瑞蒂(Franco Moretti )教授提出的“远读”(Distant Reading)理论,我们一方面应认真思考其独创之处、其合理有效的适用范围,另一方面也要避免因推崇“远读”而放弃“精读”“细读”(Close Reading)。

  我以为,避免数字人文产生弊端的最有效办法是学者必须具备深厚的人文学术修养。只有在具备深厚人文修养,精通传统人文学科的研究体系和研究方法的基础上,同时深入了解计算机科学的特点和数字人文的长处,从问题出发,将传统人文科学方法与数字人文有效整合,才能将二者的优势结合起来,趋利避害,在学术上开辟出新的天地。


随便看看