updateStateByKey

首先是虚构的用例。假设我有一个元组流(user_id,time_stamp,login_ip)。我想以5秒的粒度维护每个用户的最后登录IP。使用Spark流，我可以使用updateStateByKey方法更新这张map。问题是，随着数据流不断涌来，每个时间间隔的RDD越来越大，因为看到了更多的user_ids。一段时间后，map会变得很大，维护时间会变长，无法实现结果的实时传递。请注意，这只是我想出的一个简单示例来说明问题。实际问题可能更复杂，确实需要实时交付。关于如何解决这个问题的任何想法(在Spark以及其他解决方案中都会很好)？最佳答案