10个大数据面试入门级问题

发布信息

10个大数据面试入门级问题

您当前的位置：首页 > 职业规划 > 面试经验

2021-03-29

简介

10个大数据面试入门级问题

1.您对“大数据”一词有何了解？

答：大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据，这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务，并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。

2.大数据的五个V是什么？

答：大数据的五个V如下：

Volume -Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量
Velocity -Velocity是数据增长的速度。社交媒体在数据增长速度方面发挥着重要作用。
Variety -Variety是指不同的数据类型，即各种数据格式，如文本，音频，视频等。
Veracity -Veracity是指可用数据的不确定性。由于大量数据带来不完整性和不一致性，因此产生了准确性。
Value -价值是指将数据转化为价值。通过将访问的大数据转换为价值，企业可以创造收入。

大数据的5V

注意：这是大数据访谈中提出的基本和重要问题之一。如果您看到面试官有兴趣了解更多信息，您可以选择详细解释五个V. 但是，如果您被问及“大数据”这一术语，甚至可以提及这些名称。

3.告诉我们大数据和Hadoop如何相互关联。

答：大数据和Hadoop几乎是同义词。随着大数据的兴起，专门从事大数据操作的Hadoop框架也开始流行起来。专业人员可以使用该框架来分析大数据并帮助企业做出决策。

注意：这个问题通常在大数据访谈中提出。可以进一步去回答这个问题，并试图解释的Hadoop的主要组成部分。

4.大数据分析如何有助于增加业务收入？

答：大数据分析对企业来说非常重要。它可以帮助企业将自己与众不同并增加收入。通过预测分析，大数据分析为企业提供定制的建议和建议。此外，大数据分析使企业能够根据客户需求和偏好推出新产品。这些因素使企业获得更多收入，因此公司正在使用大数据分析。通过实施大数据分析，公司可能会收入大幅增加5-20％的收入。一些使用大数据分析来增加收入的受欢迎公司是 - 沃尔玛，LinkedIn，Facebook，Twitter，美国银行等。

5.解释部署大数据解决方案时应遵循的步骤。

答：以下是部署大数据解决方案所遵循的三个步骤

Ⅰ、数据摄取

部署大数据解决方案的第一步是数据提取，即从各种来源提取数据。数据源可以是像Salesforce这样的CRM，像SAP这样的企业资源规划系统，像MySQL这样的RDBMS或任何其他日志文件，文档，社交媒体源等。数据可以通过批处理作业或实时流来提取。然后将提取的数据存储在HDFS中。

部署大数据的步骤

部署大数据解决方案的步骤

II、数据存储

在数据摄取之后，下一步是存储提取的数据。数据存储在HDFS或NoSQL数据库（即HBase）中。HDFS存储适用于顺序访问，而HBase适用于随机读/写访问。

III、数据处理

部署大数据解决方案的最后一步是数据处理。数据通过Spark，MapReduce，Pig等处理框架之一进行处理。

6.定义HDFS和YARN的相应组件

答： HDFS的两个主要组成部分：

NameNode - 这是用于处理HDFS内数据块的元数据信息的主节点
DataNode / Slave节点 - 这是作为从节点存储数据的节点，供NameNode处理和使用

除了提供客户端请求之外，NameNode还执行以下两个角色之一：

CheckpointNode - 它在与NameNode不同的主机上运行
BackupNode-它是一个只读的NameNode，它包含不包括块位置的文件系统元数据信息

HDFS和YARN的相应组件

YARN的两个主要组成部分：

ResourceManager-该组件接收处理请求，并根据处理需要相应地分配给各个NodeManager。
NodeManager-它在每个单个数据节点上执行任务

7.为什么Hadoop可用于大数据分析？

答：由于数据分析已成为业务的关键参数之一，因此，企业正在处理大量结构化，非结构化和半结构化数据。在Hadoop主要支持其功能的情况下，分析非结构化数据非常困难

存储
处理
数据采集

此外，Hadoop是开源的，可在商用硬件上运行。因此，它是企业的成本效益解决方案。

8.什么是fsck？

答： fsck代表文件系统检查。它是HDFS使用的命令。此命令用于检查不一致性以及文件中是否存在任何问题。例如，如果文件有任何丢失的块，则通过此命令通知HDFS。

9. NAS（网络附加存储）和HDFS之间的主要区别是什么？

答： NAS（网络附加存储）和HDFS之间的主要区别 -

HDFS在一组计算机上运行，而NAS在单个计算机上运行。因此，数据冗余是HDFS中的常见问题。相反，复制协议在NAS的情况下是不同的。因此，数据冗余的可能性要小得多。
在HDFS的情况下，数据作为数据块存储在本地驱动器中。在NAS的情况下，它存储在专用硬件中。

10.格式化NameNode的命令是什么？

答： $ hdfs namenode -format。

注：内容来源于各大面经网、论坛等，如果侵犯了您的权益，请联系我们处理

上一篇: 10个大数据面试中级问题

下一篇: 10个大数据Hadoop面试问题

10个大数据面试入门级问题

10个大数据面试入门级问题

热点推荐

猜你喜欢

栏目信息