编程小白冲Kaggle每日打卡(12)--kaggle学堂:<机器学习简介>模型如何工作

news/2025/2/23 12:53:03

Kaggle官方课程链接:How Models Work

本专栏旨在Kaggle官方课程的汉化,让大家更方便地看懂。

How Models Work

第一步,如果你是机器学习的新手。

Introduction

我们将从概述机器学习模型的工作原理和使用方法开始。如果你以前做过统计建模或机器学习,这可能会让你觉得很基本。别担心,我们很快就会建立强大的模型。

本课程将让您在经历以下场景时构建模型:

你表哥通过房地产投机赚了数百万美元。由于你对数据科学的兴趣,他主动提出与你成为商业伙伴。他会提供资金,你会提供预测各种房屋价值的模型。

你问你的堂兄过去是如何预测房地产价值的,他说这只是直觉。但更多的质疑表明,他从过去见过的房子中识别出了价格模式,并利用这些模式对他正在考虑的新房进行了预测。

机器学习的工作原理是一样的。我们将从一个名为决策树的模型开始。有更高级的模型可以给出更准确的预测。但是决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。

为了简单起见,我们将从最简单的决策树开始。

它将房屋分为两类。所考虑的任何房屋的预测价格都是同类房屋的历史平均价格。

我们使用数据来决定如何将房屋分为两组,然后再次确定每组的预测价格。从数据中捕获模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。

模型如何拟合的细节(例如如何分割数据)足够复杂,我们将稍后保存。模型拟合后,您可以将其应用于新数据,以预测额外房屋的价格。

Improving the Decision Tree

以下两个决策树中,哪一个更有可能是拟合房地产训练数据的结果?

左边的决策树(决策树1)可能更有意义,因为它捕捉到了这样一个现实,即卧室更多的房子往往比卧室更少的房子售价更高。这种模型最大的缺点是它没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。

你可以使用具有更多“分裂”的树来捕捉更多的因素。这些被称为“更深”的树。一个同时考虑每栋房子地块总面积的决策树可能看起来像这样:

你可以通过追踪决策树来预测任何房子的价格,总是选择与房子特征相对应的路径。这房子的预测价格是最低的。我们做出预测的底部点称为叶子。

叶子处的分割和值将由数据决定,因此是时候检查您将使用的数据了。

Continue

让我们更具体一点。是时候检查你的数据了。


http://www.niftyadmin.cn/n/5863414.html

相关文章

YOLOv8与DAttention机制的融合:复杂场景下目标检测性能的增强

文章目录 1. YOLOv8简介2. DAttention (DAT)注意力机制概述2.1 DAttention机制的工作原理 3. YOLOv8与DAttention (DAT)的结合3.1 引入DAT的动机3.2 集成方法3.3 代码实现 4. 实验与结果分析4.1 实验设置4.2 结果分析推理速度性能对比 5. 深度分析:DAttention在YOLO…

分发糖果(力扣135)

题目说相邻的两个孩子中评分更高的孩子获得的糖果更多,表示我们既要考虑到跟左边的孩子比较,也要考虑右边的孩子,但是我们如果两边一起考虑一定会顾此失彼。这里就引入一个思想:先满足右边大于左边时的糖果分发情况,再…

贪心算法

int a[1000], b5, c8; swap(b, c); // 交换操作 memset(a, 0, sizeof(a)); // 初始化为0或-1 引导问题 为一个小老鼠准备了M磅的猫粮,准备去和看守仓库的猫做交易,因为仓库里有小老鼠喜欢吃的五香豆,第i个房间有J[i] 磅的五香豆&#xf…

【HeadFirst系列之HeadFirstJava】第3天之从零开始理解Java中的主数据类型和引用

从零开始理解Java中的主数据类型和引用 《Head First Java》是一本非常适合初学者的Java入门书籍,它以轻松幽默的方式讲解了Java的核心概念。在第三章节中,书中详细介绍了Java的主数据类型(Primitive Types)和引用(Re…

SpringBoot中实现限流和熔断功能

我们将使用Java的ScheduledExecutorService来实现一个简单的令牌桶算法(Token Bucket Algorithm),并结合一个自定义的服务类来处理第三方API调用。 1. 创建限流器 首先,创建一个简单的限流器类: import java.util.concurrent.*;public class SimpleRateLimiter {

计算机专业知识【数据库完整性约束:数据质量的坚固防线】

在数据库管理的领域中,数据的准确性、一致性和可靠性是至关重要的。为了保障这些特性,我们引入了各种完整性约束机制。接下来,就为大家详细介绍用户定义的完整性约束、实体完整性约束、参照完整性约束和关键字完整性约束,让数据库…

利用爬虫获取淘宝商品描述:实战案例指南

在电商领域,商品描述是消费者了解产品细节、做出购买决策的重要依据。精准获取淘宝商品描述不仅能帮助商家优化产品信息,还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用爬虫技术精准获取淘宝商品描述,并分享关键技术和…

2012年IMO几何预选题第6题

设有非等腰的 △ A B C \triangle ABC △ABC, O O O 和 I I I 分别为外心和内心. 在边 A C AC AC, A B AB AB 上分别存在两点 E E E 和 F F F, 使得 C D C E A B CDCEAB CDCEAB, B F B D A C BFBDAC BFBDAC. 设 ( B D F ) (BDF) (BDF) 和 ( C D E ) (CDE) (CDE)…