CCL语料库由北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)开发,期间得到了北京大学计算语言学研究所、中科院计算技术研究所等单位同仁的大力支持和帮助。
CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。主要功能特色在于:支持复杂检索表达式(比如不相邻关键词查询,指定距离查询,等等);支持对标点符号的查询(比如查询“ ”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可以从网页上下载查询结果(text文件)。 CCL汉语语料库总字符数为783,463,175,其中现代汉语语料库总字符数为581,794,456。