这是最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。
这是首个中文阅读理解数据集,包括人民日报和儿童童话(PD&CFT)。
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
NLPIR实验室定位为世界一流的多语种认知智能创新中心,服务于国家安全治理、行业大数据挖掘与个人智能服务。
Open Data Stack Exchange是是一个面向对开放数据感兴趣的开发人员和研究人员的问答网站。
SuperDataScience是关于数据科学和人工智能的图书馆,包含56门课程。
加州大学尔湾分校化学信息学数据集
WOLFRAM DATA REPOSITORY是一个公共资源,它承载着一个不断扩展的可计算数据集集合,经过策划和结构化,适合立即用于计算、可视化、分析等。
Bigml提供适合机器学习的公共数据源。
OPEN DATA NETWORK发布并共享数据,查找并构建数据以及回答问题。
Data Is Plural — Structured Archive电子表格跟踪了每周通讯《Data Is Plural》上发布的项目。
冒泡排序(Bubble Sort)也是一种简单直观的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢"浮"到数列的顶端。