最后,列出并验证到目前为止所做的虽有假设是很好的做法(由你或其他人);这可以在早期发现严重的问题。例如,您的系统输出的地区价格将被输入到下游的机器学习系统中,我们假设这些价格将会被使用。但是,如果下游系统实际上将价格转换为类别(例如“便宜的”、“中等的”或“昂贵的”),然后使用这些类别而不是价格本身?在这种情况下,完全正确的价格是不重要的;你的系统只需要正确的分类。如果是这样的话,那么问题应该被构建为一个分类任务而不是一个回归任务。而你不希望在回归系统上工作几个月之后才发现这个问题应该被构建为一个分类任务。
幸运的是,在与负责下游系统的团队交谈之后,您确信他们确实需要实际的价格,而不仅仅是类别。太棒了!你可以开始编码了!