jjzjj

python - Pydoop mapreduce "AttributeError: module ' wordcount_minimal' 没有属性 '__main__' "

我安装了Pydoop并正在尝试运行MapReduce作业。只是为了试运行,我尝试执行字数统计示例wordcount_minimal.py和wordcount_full.py。他们都卡在map阶段。在stderr的末尾,我根据我运行的脚本找到了这条消息:module'wordcount_minimal'hasnoattribute'main'或module'wordcount_full'hasnoattribute'main'我使用命令执行作业:pydoopsubmit--upload-file-to-cachewordcount_full.pywordcount_fullhdfs_in

python - 使用pydoop将文件复制到hdfs

我正在尝试编写用于将文件复制到hdfs的python脚本。我在ubuntu上工作并安装了hadoop和pydoop。以下代码是我的脚本:importpydoop.hdfsashdfsclassCOPYTOHDFS():local_path='/home/user/test.txt'hdfs_path='/testfile'host='master'port=9000hdfsobj=hdfs.hdfs(host,port,user='cloudera-user',groups=['supergroup'])hdfsobj.copy(local_path,hdfsobj,hdfs_path

python - 在没有pydoop的情况下列出HDFS Python中的所有文件

我有一个在centos6.5上运行的hadoop集群。我目前正在使用python2.6。由于不相关的原因,我无法升级到python2.7。由于这个不幸的事实,我无法安装pydoop。在hadoop集群中,我有大量名为raw"yearmonthdaytimehour".txt的原始数据文件,括号中的所有内容都是数字。有没有办法在python中列出hadoop目录中的所有文件?所以程序会创建一个看起来像这样的列表。listoffiles=['raw160317220001.txt','raw160317230001.txt',....]这将使我需要做的一切变得容易得多,因为从第2天第15小

java - Pydoop 错误 : RuntimeError: java home not found, 尝试使用 CDH5.4 在远程服务器上设置 JAVA_HOME

目标:使用pydoop从我的笔记本电脑读取存储在HDFS中的远程文件。我用的是pycharm专业版。我正在使用ClouderaCDH5.4我的笔记本电脑上的pyCharm配置:在项目解释器(在设置下)中,我已将python编译器定向到远程服务器上,如ssh://remote-server-ip-address:port-number/home/ashish/anaconda/bin/python2.7现在有一个文件存储在HDFS位置/home/ashish/pencil/someFileName.txt然后我使用pipinstallpydoop在远程服务器上安装pydoop并安装它。然

python - Jupyter 中的 Pydoop 失败

我在同一台机器上安装了带有HDP和iPython/Jupyter的UbuntuO/S。我能够使用Python2内核通过Jupyternotebook运行各种命令。但是我在Jupyternotebook中遇到Pydoop问题。我想使用这个库访问Hadoop上HDFS中的数据。我能够在Python命令控制台以及iPython控制台中成功运行以下代码:importpydoop.hdfsashdfshdfs.ls('/')但是,我在Jupyternotebook中的hdfs.ls命令中遇到以下错误:/usr/local/lib/python2.7/dist-packages/pydoop/hd

python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs

我写了一个将本地文件复制到HDFS的python脚本。在集群的所有节点中将python版本2.6升级到2.7。安装pydoop-1.0版本并使用CDH5.4如果我在命令行中运行py脚本,它运行良好。当我在oozie中运行时,同样的脚本抛出以下错误。错误:importpydoop.hdfsashdfsImportError:Nomodulenamedpydoop.hdfsFailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.ShellMain],exitcode[1]Oozie工作流${jobTracker}${nam

python - pydoop vs hadoopy - hadoop python 客户端

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion在搜索Hadoop的python客户端时,我发现了两个模块pydoop和hadoopy。看起来两者都足够好,但不确定哪个比另一个更有优势安装一个。

Python 2.7.6 Pydoop 在 Ubuntu 上安装失败

我在安装pydoop包时遇到这个错误:root@ubuntu:~#pipinstallpydoopDownloading/unpackingpydoopDownloadingpydoop-1.0.0.tar.gz(931kB):931kBdownloadedRunningsetup.py(path:/tmp/pip_build_root/pydoop/setup.py)egg_infoforpackagepydoopusingsetuptoolsversion15.0Traceback(mostrecentcalllast):File"",line17,inFile"/tmp/pip_

python - 在 Celery 任务中时 Pydoop 调用不起作用

我已经使用Celery为项目设置了两个文件和Pydoop,tasks.py和HDFStorage.py#tasks.pyfromceleryimportCeleryfromceleryimportshared_taskfromcelery.utils.logimportget_task_loggerfromHDFSStorageimportHDFSStorageapp=Celery('tasks',broker='amqp://guest@localhost//')logger=get_task_logger(__name__)fs=HDFSStorage()printfs.exist

java - Pydoop Java home not set 安装问题

当我回显$JAVA_HOME时,我得到了Java的路径。Hadoop也在运行,但是pydoop安装由于这个错误而失败。Traceback(mostrecentcalllast):File"setup.py",line54,inraiseRuntimeError("javahomenotfound,trysettingJAVA_HOME")RuntimeError:javahomenotfound,trysettingJAVA_HOME我使用sudopythonsetup.pyinstall--skip-build运行设置命令。作为非root用户收到此错误运行安装运行安装库创建/usr/
12