jjzjj

MySQL 到 JSON 不一致提取

coder 2024-07-07 原文

我有一个包含 6 个表和大约 200 万行的 MySQL 数据库。

我想将所有数据迁移到 MongoDB。

我决定通过将 SQL 表转换为 JSON 并将其导入 MongoDB 来实现此目的。

我用 Golang 编写了一个程序来提取数据并将其输出为 JSON。

这是程序的主要功能:

func main() {
    // Open a database connection
    var err error
    db, err = sql.Open("mysql", "root:password@tcp(127.0.0.1:3306)/employees")
    checkErr(err)
    // Check if reachable
    if err = db.Ping(); err != nil {
        log.Fatal("Database is unreachable:", err)
    }
    // Populate variables with data
    err = populateVars()
    checkErr(err)
    // Marshal variables into JSON
    binaryJSON, err := json.Marshal(collection)
    checkErr(err)
    // Write JSON to a file
    err = writeStringToFile("/home/user01/Temporary/sql2data.json", string(binaryJSON))
    checkErr(err)
}

问题是输出不一致。

每次我运行该程序时,生成的文件都有不同的大小,并且缺少一些随机字段。

这可能是什么原因造成的?

这似乎不是程序逻辑的问题,因为一切都没有错误地执行,并且大多数字段都被填充得很好。

我是否阅读信息速度过快,以至于偶尔会丢失某些内容?

还是我还缺少其他东西?

编辑:

大部分工作发生在 populateVars() 函数调用中。

它有多个代码块,可执行给定的 SQL 查询并根据模式填充结构变量。

这是一个这样的 block :

rows, err = db.Query("SELECT emp_no, dept_emp.dept_no, dept_name, from_date, to_date FROM dept_emp JOIN departments ON departments.dept_no = dept_emp.dept_no;")
checkErr(err)
i := 0
for rows.Next() {
    var id int
    var depNumber string
    var depName string
    var fromDate string
    var toDate string
    var position = "Employee"
    err = rows.Scan(&id, &depNumber, &depName, &fromDate, &toDate,)
    // For debugging purposes:
    fmt.Println(id, depNumber, depName, fromDate, toDate, position, i)
    if err != nil {
        return err
    }
    for i := range collection {
        if collection[i].ID == id {
            collection[i].Departments = append(collection[i].Departments, Department{DepartmentNumber: depNumber, DepartmentName: depName, FromDate: fromDate, ToDate: toDate, Position: position})
            // For debugging purposes:
            fmt.Println(collection[i].Departments)
        }
    }
    i++
}

这是整个程序的 GitHub 链接: https://github.com/dchmie01/mysql_to_json/blob/master/main.go

编辑 2:

问题似乎与查询超时有关。

每个查询执行大约需要 10 分钟,但在大约 6 分钟后,我收到此错误,程序停止执行查询:

[mysql] 2017/04/29 17:35:16 packets.go:66: unexpected EOF
[mysql] 2017/04/29 17:35:16 packets.go:412: busy buffer
2017/04/29 17:35:16 driver: bad connection

在 MySQL 日志文件中它说:

2017-04-29T16:28:49.975805Z 102 [Note] Aborted connection 102 to db: 'employees' user: 'root' host: 'localhost' (Got timeout writing communication packets)

到目前为止,我尝试使用 MySQL 变量来禁用任何可能存在的超时,但没有成功。

我认为问题可能出在 Go 的 mysql 驱动程序上。

最佳答案

考虑使用Mysql SELECT INTO OUTFILEmongoiport --type csv相反。

该程序唯一要做的就是嵌入一对多和多对多文档,这可以通过聚合框架轻松完成。

一步一步的例子:

  1. 从 mysql 导出 csv

    SELECT * from employees INTO OUTFILE '/tmp/employees.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    SELECT * from salaries INTO OUTFILE '/tmp/salaries.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    SELECT * from titles INTO OUTFILE '/tmp/titles.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    SELECT * from departments INTO OUTFILE '/tmp.departments.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    SELECT * from dept_emp INTO OUTFILE '/tmp/dept_emp.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    SELECT * from dept_manager INTO OUTFILE '/tmp/dept_manager.csv' FIELDS TERMINATED BY ',' ENCLOSED BY '"';
    
  2. 将 csv 导入 mongo(根据您的架构定义“字段规范”,请参阅员工字段规范示例)

    mongoimport -d <dbname> -c tmp_employees -f 'id.int32(),birth.date(2006-01-02),first_name.string(),last_name.string(),gender.string(),hire_date.date(2006-01-02)' --columnsHaveTypes --type csv --file /tmp/employees.csv --drop 
    mongoimport -d <dbname> -c tmp_salaries -f 'field spec' --columnsHaveTypes --type csv --file /tmp/salaries.csv --drop 
    mongoimport -d <dbname> -c tmp_titles -f 'field spec' --columnsHaveTypes --type csv --file /tmp/titles.csv --drop 
    mongoimport -d <dbname> -c tmp_departments -f 'field spec' --columnsHaveTypes --type csv --file /tmp/departments.csv --drop 
    mongoimport -d <dbname> -c tmp_dept_emp -f 'field spec' --columnsHaveTypes --type csv --file /tmp/dept_emp.csv --drop 
    mongoimport -d <dbname> -c tmp_dept_manager -f 'field spec' --columnsHaveTypes --type csv --file /tmp/dept_manager.csv --drop 
    
  3. 从 mongo shell 嵌入数据

    db.tmp_employees.aggregate([
        // 1-to-many joins
        {$lookup: {
            from: 'tmp_salaries',
            localField: 'id',
            foreignField: 'emp_no',
            as: 'salaries'
        }},
        {$lookup: {
            from: 'tmp_titles',
            localField: 'id',
            foreignField: 'emp_no',
            as: 'titles'
        }},
        // many-to-many joins
        {$lookup: {
            from: 'tmp_dept_emp',
            localField: 'id',
            foreignField: 'emp_no',
            as: 'dept_emp'
        }},
        {$lookup: {
            from: 'tmp_dept_manager',
            localField: 'id',
            foreignField: 'emp_no',
            as: 'dept_manager'
        }},
        {$unwind: { path: '$dept_emp', preserveNullAndEmptyArrays: true }},
        {$lookup: {
            from: 'tmp_departments',
            localField: 'dept_emp.dept_no',
            foreignField: 'dept_no',
            as: 'dept_emp_deps'
        }},    
        {$unwind: { path: '$dept_emp_deps', preserveNullAndEmptyArrays: true }},
        {$group: {
            _id: '$_id',
            root: {$first: '$$ROOT'},
            dept_manager: {$first: '$dept_manager'},
            departments_emp: {$push: {
                department_number: '$dept_emp.emp_no',
                department_name: '$dept_emp_deps.dept_name',
                from_date: '$dept_emp.from_date',
                to_date: '$dept_emp.to_date',
                position: '$dept_emp.position'
            }},
        }},
        {$unwind: { path: '$dept_manager', preserveNullAndEmptyArrays: true }},
        {$lookup: {
            from: 'tmp_departments',
            localField: 'dept_manager.dept_no',
            foreignField: 'dept_no',
            as: 'dept_manager_deps'
        }},    
        {$unwind: { path: '$dept_manager_deps', preserveNullAndEmptyArrays: true }},
        {$group: {
            _id: '$_id',
            root: {$first: '$root'},
            departments_emp: {$first: '$departments_emp'},
            departments_manager: {$push: {
                department_number: '$dept_manager.emp_no',
                department_name: '$dept_manager_deps.dept_name',
                from_date: '$dept_manager.from_date',
                to_date: '$dept_manager.to_date',
                position: '$dept_manager.position'
            }},
        }},
        // combine departments to a single array
        {$project: {
            root: 1,
            departments_all: {$concatArrays: [ "$departments_emp", "$departments_manager" ] }
        }},
        //final reshape
        {$project: {
            id: '$root.id',
            birth_date: '$root.birth_date',
            first_name: '$root.first_name',
            last_name: '$root.last_name',
            gender: '$root.gender',
            hire_date: '$root.hire_date',
            salaries: '$root.salaries',
            titles: '$root.titles',
            departments: {$filter: {
                input: "$departments_all",
                as: "departments",
                cond: { $ne: [ "$$departments", {} ] }}}
        }},
        { $out : "employees" }
    ])
    
  4. 从 mongo shell 中删除导入的集合

    db.tmp_employees.drop();
    db.tmp_salaries.drop();
    db.tmp_titles.drop();
    db.tmp_departments.drop();
    db.tmp_dept_emp.drop();
    db.tmp_dept_manager.drop();
    

关于MySQL 到 JSON 不一致提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43696607/

有关MySQL 到 JSON 不一致提取的更多相关文章

  1. ruby-on-rails - Rails HTML 请求渲染 JSON - 2

    在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这

  2. ruby-on-rails - 如何使用 Rack 接收 JSON 对象 - 2

    我有一个非常简单的RubyRack服务器,例如:app=Proc.newdo|env|req=Rack::Request.new(env).paramspreq.inspect[200,{'Content-Type'=>'text/plain'},['Somebody']]endRack::Handler::Thin.run(app,:Port=>4001,:threaded=>true)每当我使用JSON对象向服务器发送POSTHTTP请求时:{"session":{"accountId":String,"callId":String,"from":Object,"headers":

  3. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  4. ruby-on-rails - Rails - 从命名路由中提取 HTTP 动词 - 2

    Rails中有没有一种方法可以提取与路由关联的HTTP动词?例如,给定这样的路线:将“users”匹配到:“users#show”,通过:[:get,:post]我能实现这样的目标吗?users_path.respond_to?(:get)(显然#respond_to不是正确的方法)我最接近的是通过执行以下操作,但它似乎并不令人满意。Rails.application.routes.routes.named_routes["users"].constraints[:request_method]#=>/^GET$/对于上下文,我有一个设置cookie然后执行redirect_to:ba

  5. ruby - 用 YAML.load 解析 json 安全吗? - 2

    我正在使用ruby2.1.0我有一个json文件。例如:test.json{"item":[{"apple":1},{"banana":2}]}用YAML.load加载这个文件安全吗?YAML.load(File.read('test.json'))我正在尝试加载一个json或yaml格式的文件。 最佳答案 YAML可以加载JSONYAML.load('{"something":"test","other":4}')=>{"something"=>"test","other"=>4}JSON将无法加载YAML。JSON.load("

  6. ruby - Ruby gsub 替换中的行为不一致? - 2

    两个gsub产生不同的结果。谁能解释一下为什么?代码也可在https://gist.github.com/franklsf95/6c0f8938f28706b5644d获得.ver=9999str="\tCFBundleDevelopmentRegion\n\ten\n\tCFBundleVersion\n\t0.1.190\n\tAppID\n\t000000000000000"putsstr.gsub/(CFBundleVersion\n\t.*\.).*()/,"#{$1}#{ver}#{$2}"puts'--------'putsstr.gsub/(CFBundleVersio

  7. ruby-on-rails - Ruby - 如何从 ruby​​ 上的 .pfx 文件中提取公钥、rsa 私钥和 CA key - 2

    我有一个.pfx格式的证书,我需要使用ruby​​提取公共(public)、私有(private)和CA证书。使用shell我可以这样做:#ExtractPublicKey(askforpassword)opensslpkcs12-infile.pfx-outfile_public.pem-clcerts-nokeys#ExtractCertificateAuthorityKey(askforpassword)opensslpkcs12-infile.pfx-outfile_ca.pem-cacerts-nokeys#ExtractPrivateKey(askforpassword)o

  8. ruby-on-rails - 无法安装 mysql2 0.3.14 gem - 2

    我看到其他人也遇到过类似的问题,但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录,因为我已经检查过它存在。thread.h文件存在,但不在ruby​​目录中。相反,它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin

  9. ruby - 如何在ruby中提取方括号内的内容 - 2

    我正在尝试提取方括号内的内容。到目前为止,我一直在使用它,它有效,但我想知道我是否可以直接在正则表达式中使用某些东西,而不是使用这个删除功能。a="Thisissuchagreatday[coolawesome]"a[/\[.*?\]/].delete('[]')#=>"coolawesome" 最佳答案 差不多。a="Thisissuchagreatday[coolawesome]"a[/\[(.*?)\]/,1]#=>"coolawesome"a[/(?"coolawesome"第一个依赖于提取组而不是完全匹配;第二个利用前瞻和

  10. ruby - 如何使用 ruby​​ mysql2 执行事务 - 2

    我已经开始使用mysql2gem。我试图弄清楚一些基本的事情——其中之一是如何明确地执行事务(对于批处理操作,比如多个INSERT/UPDATE查询)。在旧的ruby-mysql中,这是我的方法:client=Mysql.real_connect(...)inserts=["INSERTINTO...","UPDATE..WHEREid=..",#etc]client.autocommit(false)inserts.eachdo|ins|beginclient.query(ins)rescue#handleerrorsorabortentirelyendendclient.commi

随机推荐