在数据科学中使用 C 和 C++

让我们使用C99和C++11完成常见的数据科学任务。

虽然Python和R之类的语言在数据科学中越来越受欢迎，但是C和C++对于高效的数据科学来说是一个不错的选择。在本文中，我们将使用 C99和C++11编写一个程序，该程序使用Anscombe的四重奏数据集，下面将对其进行解释。

我在一篇涉及Python和GNU Octave的文章中写了我不断学习编程语言的动机，值得大家回顾。这里所有的程序都需要在命令行上运行，而不是在图形用户界面(GUI)上运行。完整的示例可在polyglot_fit存储库中找到。

编程任务

你将在本系列中编写的程序：

从CSV文件中读取数据
用直线插值数据(
将结果绘制到图像文件

这是许多数据科学家遇到的普遍情况。示例数据是 Anscombe 的四重奏的第一组，如下表所示。这是一组人工构建的数据，当拟合直线时可以提供相同的结果，但是它们的曲线非常不同。数据文件是一个文本文件，其中的制表符用作列分隔符，前几行作为标题。该任务将仅使用第一组(即前两列)。

C 语言的方式

C语言是通用编程语言，是当今使用最广泛的语言之一(依据 TIOBE 指数、RedMonk 编程语言排名、编程语言流行度指数和 GitHub Octoverse 状态得来)。这是一种相当古老的语言(大约诞生在 1973 年)，并且用它编写了许多成功的程序(例如 Linux 内核和 Git 仅是其中的两个例子)。它也是最接近计算机内部运行机制的语言之一，因为它直接用于操作内存。它是一种编译语言;因此，源代码必须由编译器转换为机器代码。它的标准库很小，功能也不多，因此人们开发了其它库来提供缺少的功能。

我最常在数字运算中使用该语言，主要是因为其性能。我觉得使用起来很繁琐，因为它需要很多样板代码，但是它在各种环境中都得到了很好的支持。C99标准是最新版本，增加了一些漂亮的功能，并且得到了编译器的良好支持。

我将一路介绍C和C++编程的必要背景，以便初学者和高级用户都可以继续学习。

安装

要使用C99进行开发，你需要一个编译器。我通常使用Clang,不过GCC是另一个有效的开源编译器。对于线性拟合，我选择使用 GNU 科学库。对于绘图，我找不到任何明智的库，因此该程序依赖于外部程序：Gnuplot。该示例还使用动态数据结构来存储数据，该结构在伯克利软件分发版(BSD)中定义。

在 Fedora 中安装很容易：

代码注释

在C99中，注释的格式是在行的开头放置 //，行的其它部分将被解释器丢弃。

必要的库

库由两部分组成：

头文件，其中包含函数说明
包含函数定义的源文件

头文件包含在源文件中，而库文件的源文件则链接到可执行文件。因此，此示例所需的头文件是：

主函数

在C语言中，程序必须位于称为主函数 main() 的特殊函数内：

这与上一教程中介绍的Python不同，后者将运行在源文件中找到的所有代码。

定义变量

在C语言中，变量必须在使用前声明，并且必须与类型关联。每当你要使用变量时，都必须决定要在其中存储哪种数据。你也可以指定是否打算将变量用作常量值，这不是必需的，但是编译器可以从此信息中受益。以下来自存储库中的fitting_C99.c 程序：

C语言中的数组不是动态的，从某种意义上说，数组的长度必须事先确定(即，在编译之前)：

由于你通常不知道文件中有多少个数据点，因此请使用单链列表。这是一个动态数据结构，可以无限增长。幸运的是，BSD提供了链表。这是一个示例定义：

该示例定义了一个由结构化值组成的data_point 列表，该结构化值同时包含 x 值和 y 值。语法相当复杂，但是很直观，详细描述它就会太冗长了。

打印输出

要在终端上打印，可以使用 printf() 函数，其功能类似于Octave 的 printf() 函数(在第一篇文章中介绍)：

printf() 函数不会在打印字符串的末尾自动添加换行符，因此你必须添加换行符。第一个参数是一个字符串，可以包含传递给函数的其他参数的格式信息，例如：

读取数据

现在来到了困难的部分……有一些用C语言解析CSV文件的库，但是似乎没有一个库足够稳定或流行到可以放入到Fedora 软件包存储库中。我没有为本教程添加依赖项，而是决定自己编写此部分。同样，讨论这些细节太啰嗦了，所以我只会解释大致的思路。为了简洁起见，将忽略源代码中的某些行，但是你可以在存储库中找到完整的示例代码。

首先，打开输入文件：

然后逐行读取文件，直到出现错误或文件结束：

标准新增的一个不错的函数。它可以读取文件中的整行，并负责分配必要的内存。然后使用 strtok() 函数将每一行分成字元token。遍历字元，选择所需的列：

最后，当选择了 x 和 y 值时，将新数据点插入链表中：

malloc() 函数为新数据点动态分配(保留)一些持久性内存。

拟合数据

GSL 线性拟合函数 gslfitlinear() 期望其输入为简单数组。因此，由于你将不知道要创建的数组的大小，因此必须手动分配它们的内存：

然后，遍历链表以将相关数据保存到数组：

现在你已经处理完了链表，请清理它。要总是释放已手动分配的内存，以防止内存泄漏。内存泄漏是糟糕的、糟糕的、糟糕的(重要的话说三遍)。每次内存没有释放时，花园侏儒都会找不到自己的头：

终于，终于!你可以拟合你的数据了：

绘图

你必须使用外部程序进行绘图。因此，将拟合数据保存到外部文件：

用于绘制两个文件的 Gnuplot 命令是：

结果

在运行程序之前，你必须编译它：

这个命令告诉编译器使用 C99标准、读取 fitting_C99.c 文件、加载 gsl 和 gslcblas 库、并将结果保存到 fitting_C99。命令行上的结果输出为：

这是用 Gnuplot 生成的结果图像：

C++11方式

C++ 语言是一种通用编程语言，也是当今使用的最受欢迎的语言之一。它是作为C的继承人创建的(诞生于 1983 年)，重点是面向对象程序设计(OOP)。C++ 通常被视为C的超集，因此C程序应该能够使用C++编译器进行编译。这并非完全正确，因为在某些极端情况下它们的行为有所不同。根据我的经验，C++ 与C相比需要更少的样板代码，但是如果要进行面向对象开发，语法会更困难。C++11标准是最新版本，增加了一些漂亮的功能，并且基本上得到了编译器的支持。

由于C++在很大程度上与C兼容，因此我将仅强调两者之间的区别。我在本部分中没有涵盖的任何部分，则意味着它与C中的相同。

安装

这个C++示例的依赖项与C示例相同。在Fedora 上，运行：

必要的库

库的工作方式与C语言相同，但是 include 指令略有不同：

由于GSL库是用C编写的，因此你必须将这个特殊情况告知编译器。

定义变量

与C语言相比，C++ 支持更多的数据类型(类)，例如，与其C语言版本相比，string类型具有更多的功能。相应地更新变量的定义：

对于字符串之类的结构化对象，你可以定义变量而无需使用 = 符号。

打印输出

你可以使用 printf() 函数，但是 cout 对象更惯用。使用运算符 << 来指示要使用 cout 打印的字符串(或对象)：

读取数据

该方案与以前相同。将打开文件并逐行读取文件，但语法不同：

使用与 C99示例相同的功能提取行字元。代替使用标准的C数组，而是使用两个向量。向量是C++标准库中对C数组的扩展，它允许动态管理内存而无需显式调用malloc()：

拟合数据

要在C++中拟合，你不必遍历列表，因为向量可以保证具有连续的内存。你可以将向量缓冲区的指针直接传递给拟合函数：

绘图

使用与以前相同的方法进行绘图。写入文件：

然后使用Gnuplot 进行绘图。

结果

在运行程序之前，必须使用类似的命令对其进行编译：

命令行上的结果输出为：

这就是用 Gnuplot 生成的结果图像：

结论

本文提供了用C99和C++11编写的数据拟合和绘图任务的示例。由于C++在很大程度上与C兼容，因此本文利用了它们的相似性来编写了第二个示例。在某些方面，C++ 更易于使用，因为它部分减轻了显式管理内存的负担。但是其语法更加复杂，因为它引入了为OOP编写类的可能性。但是，仍然可以用C使用OOP方法编写软件。由于OOP是一种编程风格，因此可以在任何语言中使用。在C中有一些很好的OOP示例，例如GObject 和 Jansson库。

对于数字运算，我更喜欢在C99中进行，因为它的语法更简单并且得到了广泛的支持。直到最近，C++11还没有得到广泛的支持，我倾向于避免使用先前版本中的粗糙不足之处。对于更复杂的软件，C++ 可能是一个不错的选择。

你是否也将C或C++用于数据科学?在评论中分享你的经验。