jjzjj

InfoBright

全部标签

hadoop - 免费数据仓库——Infobright、Hadoop/Hive 或什么?

我需要存储大量的小型数据对象(每月数百万行)。一旦他们被保存,他们就不会改变。我需要:安全地存储它们使用它们进行分析(主要是面向时间的)偶尔检索一些原始数据如果能和JasperReports或者BIRT一起使用就好了我的第一个镜头是InfobrightCommunity-只是一个面向列的MySQL只读存储机制另一方面,人们说NoSQL方法可能会更好。Hadoop+Hive看起来很有前途,但是文档看起来很差,版本号还不到1.0。我听说过Hypertable、Pentaho、MongoDB....您有什么建议吗?(是的,我在这里找到了一些主题,但那是一两年前的事了)编辑:其他解决方案:Mo

java - 使用多个连接的单个事务。 (MySQL/JDBC)

我正在处理的应用程序是一个基于Java的ETL过程,它将数据加载到多个表中。DBMS是Infobright(一种基于MYSQL的DBMS,适用于数据仓库)。数据加载应该以原子方式完成;但是,出于性能原因,我想同时将数据加载到多个表中(使用LOADDATAINFILE命令)。这意味着我需要打开多个连接。是否有任何解决方案可以让我以原子方式并行执行加载?(我猜答案可能取决于我加载到的表的引擎;其中大部分是Brighthouse,它允许事务,但没有XA也没有保存点)。为了进一步说明,我想避免这样的情况:我将数据加载到5个表中我提交前4个表的负载第5个表的提交失败在这种情况下,我无法回滚前4个

hadoop - 为什么Vertica/InfoBright/GreenPlum等面向列的数据库都在Hadoop上做文章?

提供Hadoop集群并使用该集群将数据提供给Vertica/InfoBright数据仓库有什么意义?所有这些供应商一直在说“我们可以连接Hadoop”,但我不明白这是什么意思。存储在Hadoop中并传输到InfoBright中有什么好处?为什么不将应用程序直接存储在Infobright/VerticaDW中?谢谢! 最佳答案 为什么要组合解决方案?Hadoop有一些很棒的功能(见下面的url)。这些功能虽然不包括允许业务用户运行快速分析。在Hadoop中需要30分钟到几小时才能完成的查询,现在使用Infobright可以在10秒内完