太阳成集团tyc234cc新闻

BCC2.0!让语言研究更“智能”

     日期:2026-04-07      访问次数:

近日,由太阳成集团tyc234cc语言资源高精尖创新中心主办的“语料库建设研讨会暨BCC 2.0发布会”召开。会议面向全国语言研究者与从业者,发布了太阳成集团tyc234cc语料库中心BCC语料库(Beijing Language and Culture University Corpus Center)2.0版本,为大模型时代的语言资源建设与智能化研究注入新动能。




初心缘起:回应时代之需

BCC语料库是由公司荀恩东教授牵头建设,以汉语为主、兼有其他语种的在线大规模语料库系统,是目前全球规模最大、在线服务功能最强的中文语料库系统。其总规模达一百五十亿字,以海量规模语料和分领域设计,反映了现代汉语和汉语生活的全貌,服务语言本体研究和语言应用研究。



时间回溯到二十年前,语言学学科群开始出现越来越强的科学化转型趋势,亟需数据驱动的研究方法与优质资源支撑,而彼时国内汉语语料库建设规模有限且开放程度不足,成为制约学科发展的瓶颈。研究者想要快速获取语料,要么耗费数月甚至数年的时间,手动搜集、整理、校对,要么前往拥有封闭语料库的单位进行查询,互联网语料服务供给稀缺,难以满足科研刚需。

正是敏锐捕捉到这样的行业痛点,公司荀恩东教授团队怀揣着“让语言研究更高效、让语言资源更可及”的初心,率先提出搭建大规模免费开放汉语语料库的构想,牵头汇聚一批志同道合的学者,开始了基于互联网的开放语料库建设之路,而这一构想,也与团队长期深耕自然语言处理、语言结构计算的学术研究方向高度契合。


铸就标杆:廿载攻坚克难

那是一段攻坚克难的岁月。团队依托自研的深度结构化检索算法这一核心关键技术,凭借在自然语言处理领域的深厚积累,从零开始摸索,搭建检索框架、制定语料筛选标准,将汉语块依存语法理念融入语料整理流程,提升语料规范性与可用性。许多青年教师、研究生自愿加入,利用休息时间加班加点,为团队贡献力量。通过将大数据处理技术与特色语料标注体系相融合,团队走出了独具特色的创新研发路径,从报刊杂志到文学作品,从网络文本到古汉语典籍,从普通话素材到外语样本,都凝聚着“用技术赋能语言研究”的初心。

“最初我们只有一个简单的想法,就是搭建一个免费、开放的语料平台,让每一位语言研究者都能轻松获取所需数据。”BCC语料库牵头人荀恩东教授回忆道。多年来,团队始终坚守这一初心,拒绝商业化炒作,力主坚持免费开放服务,即便在最艰难的时期,也依旧保障系统的维护与更新不中断。在高校系统访问受限时,甚至有众多用户专程来到北语使用该系统。

在团队坚持不懈的努力下,BCC语料库获得了持续发展,从正式上线时的100亿字,到如今150亿字的超大规模,从单一的检索功能,到多维度、多场景的服务体系,BCC语料库一步步成长为国内汉语语料库领域的标杆,被国内外多个学术媒体评为最重要的中文语料库系统之一和语言学研究必学语料库工具。2018年,BCC语料库获评“改革开放40周年高校科技创新重大成就”,这份沉甸甸的认可,是对团队二十年来坚守与付出的最好佐证。截至目前,依托BCC数据发表的国内外学术论文近三万篇,主创人员荀恩东、饶高琦等入选知网全国前百分之一高被引学者。


全面升级:三大关键突破

从1.0升级到2.0,BCC语料库有三个关键突破:一是数据与时俱进,全方位更新中文语料,实现了语体语域全面覆盖、古今文本全面覆盖、近现代时间轴全面覆盖,特别是补全了1872年至2026年共154年的近代汉语连续语料,这在中文语料库中尚属首次;二是引擎全面重构,实现了多层级结构检索,不仅支持词和词性的查询,还支持短语结构、句法树的复杂混合查询,真正实现了语言结构的计算和检索;三是开放层次升级,从数据开放走向能力开放,通过Python开发包LangSC,任何研究者都可以在自己的电脑上免费构建个人BCC语料库,实现从“提供语料库”到“提供建库能力”的根本转变。



通过技术升级,BCC 2.0全面提升了检索精度与效能。数据上,补全历史语料,新增《人民日报》、新闻联播全量数据,并扩充近代汉语、《申报》等资源,语料更丰富、时效性更强。检索内核全面重构,速度更快、资源占用更低,支持普通笔记本运行,同时实现结构化、树状句法深度检索,解决传统检索效率低的问题。平台从封闭服务转向开放共享,发布Python开发包,开放个人语料库自主构建功能,能够灵活贴合不同研究者的个性化需求,为语言研究迈向智能化新高度提供坚实支撑。未来还将结合大模型,实现自动标注、自然语言检索等智能功能。



BCC语料库为全球的汉语教师和教材编写者提供了真实的语言使用数据,使汉语研究从“举例论证”走向“数据驱动”,使汉语教学更加贴近真实的语言生活。它不仅是语言学家的检索工具,也是计算语言学的研究平台,推动了语言学与计算机科学的学科融合。未来,团队将持续优化BCC语料库功能,推动语料资源的开放共享与智能化应用,为学科转型发展夯实语言资源基础,助力中国语言文字研究事业高质量发展。

太阳成集团tyc234cc
  • 联系电话  : 010-82303926
  • 地址  :北京市海淀区公司路15号
  • 邮编  :100083
  • 公司微信公众号

    团学公众号-言科青语

    Copyright © 中国·太阳成集团tyc234cc(Macau)股份有限公司-集团官网 版权所有