#要想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集,欢迎转发、分享,催更下一期No.1Math33K(Math33KforMathWordProblemSolving)●发布方:腾讯人工智能实验室●发布时间:2017●简介:Math23K是为解决数学单词问题而创建的数据集,包含从互联网上爬取的23,162个中文问题。●下载地址:https://opendatalab.org.cn/Math23K●论文地址:https://aclanthology.org/D17-1088.pdfNo.2Ape210K●发布方:猿辅导AILab,西北大学●发布时间