jjzjj

http - golang http 文件太多

coder 2024-07-10 原文

在我的项目中,我需要发送 http 请求 5000 次/秒。我确实阅读了一些有关该问题的博客和问题,并且尝试了一些事情:

  1. 将进程 ulimit 更改为 10^5
  2. 关闭content.Body
  3. 使用一个 http 客户端并重用连接

但它们就是不起作用。事实上,我的应用程序可以运行几分钟或几小时,然后达到我设置中的 ulimit 值(前 50000,后 100000,使用 shell cmd ls -l/proc/PID/fd | wc -l)。 http请求如下:

package http

import "downloader/request"
import "downloader/response"
import "downloader/proxy"
import "downloader/ssdb"
import "net/http"
import "net/url"
import "time"
import "fmt"
import "strings"
import "io/ioutil"
import "errors"

func getProxy(ssdbClients []*ssdb.SSDBClient, proxyName string, reqUrl string) (string, error){
    var err error
    p := ""
    url := ""
    if proxyName != "" {
        p, err = proxy.GetOne(ssdbClients,proxyName)
        if err != nil {
            return url, err
        }
        if strings.HasPrefix(reqUrl, "https") {
            url = fmt.Sprintf("https://%s", p)
        } else if strings.HasPrefix(reqUrl, "http") {
            url = fmt.Sprintf("http://%s", p)
        } else {
            return url,errors.New(fmt.Sprintf("reqUrl %s not valid", reqUrl))
        }
        return url, err
    }
    return url, err
}

func customProxy(req *http.Request) (*url.URL, error) {
    httpProxy := req.Header.Get("HttpProxy")
    if httpProxy == "" {
        return nil, nil
    } else {
        return url.Parse(httpProxy)
    }
}

func GetClient() *http.Client {
    var client http.Client
    client = http.Client{
        Timeout: 15 * time.Second,
    }
    transport :=  http.Transport{
        Proxy: customProxy,
        DisableCompression: false,
        MaxIdleConnsPerHost: 10000,
    }
    client.Transport = &transport
    return &client
}

func structResponse(req *request.HttpRequest, content *http.Response, proxy string) (response.HttpResponse, error) {
    var resp response.HttpResponse
    data, err := ioutil.ReadAll(content.Body)
    if err != nil {
        return resp, err
    }
    header := make(map[string]interface{})
    for k, v := range content.Header {
        if len(v) > 0 {
            header[k] = v[0]
        }
    }
    var encoding string
    encoding = content.Header.Get("Content-Encoding")
    resp = response.HttpResponse {
        Request: *req,
        ErrorCode: 0,
        ErrorMsg: "",
        StatusCode: content.StatusCode,
        Reason: content.Status,
        Html: string(data),
        Headers: header,
        Encoding: encoding,
        Url: req.Url,
        CrawlerName: req.CrawlerName,
        ProxyName: req.ProxyName,
        HttpProxy: proxy,
    }
    return resp, err
}

func Send(ssdbClients []*ssdb.SSDBClient, r *request.HttpRequest, httpClient *http.Client) (response.HttpResponse, error) {
    var resp response.HttpResponse
    var err error
    var httpProxy string

    httpProxy, err = getProxy(ssdbClients, r.ProxyName, r.Url)
    if err != nil {
        return resp, err
    }

    req, err := http.NewRequest(r.Method, r.Url, strings.NewReader(r.Data))
    if err != nil {
        return resp, err
    }

    u, err := url.Parse(r.Url)
    if err != nil {
        return resp, err
    }

    defaultHeaders := map[string] string {
        "User-Agent": `Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) 
        AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36`,
        "Upgrade-Insecure-Requests": "1",
        "Connection": "keep-alive",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6",
        "Cache-Control": "max-age=0",
        "Host": u.Host,
        "HttpProxy": httpProxy,
    }

    for k, v := range defaultHeaders {
        req.Header.Set(k, v)
    }

    for k, v := range r.Headers {
        req.Header.Set(k, fmt.Sprintf("%v", v))
    }

    for k, v := range r.Cookies {
        req.Header.Set("Cookie", fmt.Sprintf("%s=%v", k, v))
    }


    values := req.URL.Query()
    for k, v := range r.Params {
        values.Add(k, fmt.Sprintf("%v", v))
    }
    req.URL.RawQuery = values.Encode()

    content, err := httpClient.Do(req)
    if err != nil {
        return resp, err
    }
    defer content.Body.Close()
    resp, err = structResponse(r, content, httpProxy)
    if err != nil {
        return resp, err
    }
    respCookies := make(map[string] interface{})
    if httpClient.Jar != nil {
        cookies := httpClient.Jar.Cookies(req.URL)
        for _, cookie := range cookies {
            respCookies[cookie.Name] = cookie.Value
        }
        resp.Cookies = respCookies
    }
    return resp, err
}

我使用我的 http 库如下:

func sendRequest(clients []*ssdb.SSDBClient, r *request.HttpRequest, httpClient *http.Client) {
    for {
        resp, err := http.Send(clients, *r, httpClient)
        if err != nil {
            utils.Error.Println("http send fail ", err.Error())
        } else {
            if resp.StatusCode == 200 {
                utils.Info.Println("status 200, success")
            } else {
                utils.Warning.Println("status ", resp.StatusCode, resp.Reason)
            }
        }
    }
}
func main() {
    httpClient := http.GetClient()
    var wg sync.WaitGroup
    wg.Add(1)
    for i:=0;i<crawlerConsumers;i++ {
        go sendRequest(clients, r, httpClient)
    }
    wg.Wait()
}

任何人都可以有任何想法或建议吗?

  • 添加代理对 http 客户端连接有影响吗?
  • 我的应用是否必须达到 ulimit 值,因为我的应用发送请求 每秒 5000 次并且一个请求有 15 秒超时?
  • 是否关闭所有文件句柄?
  • 我是否忘记处理某些异常?

使用 pprof 添加一些个人资料信息

/debug/pprof/

profiles:
0   block
99490   goroutine(This number is growing constantly, very strange)
1640    heap
14  threadcreate

# runtime.MemStats
# Alloc = 210967776
# TotalAlloc = 3673382376
# Sys = 646805032
# Lookups = 29226
# Mallocs = 15590422
# Frees = 14236863
# HeapAlloc = 210967776
# HeapSys = 331415552
# HeapIdle = 72081408
# HeapInuse = 259334144
# HeapReleased = 0
# HeapObjects = 1353559
# Stack = 283049984 / 283049984
# MSpan = 4007136 / 4112384
# MCache = 9664 / 16384
# BuckHashSys = 1575958
# NextGC = 306292818
# PauseNs = [2096153 2554867 2962532 4711468 3373778 3548443 1764893 1961992 2434108 2658626 2627832 2564733 2610212 3278169 2954882 2847604 4443650 3582780 3557718 4201288 4762243 8349689 3812924 5098353 5196422 4494087 5209715 5978150 5060982 4825367 6529020 5738726 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# NumGC = 32
# EnableGC = true
# DebugGC = false


# runtime.MemStats
# Alloc = 334390488
# TotalAlloc = 7408124464
# Sys = 963748912
# Lookups = 64289
# Mallocs = 31759565
# Frees = 29798637
# HeapAlloc = 334390488
# HeapSys = 536903680
# HeapIdle = 171114496
# HeapInuse = 365789184
# HeapReleased = 0
# HeapObjects = 1960928
# Stack = 381648896 / 381648896
# MSpan = 4958240 / 5160960
# MCache = 9664 / 16384
# BuckHashSys = 1625694
# NextGC = 337299393
# PauseNs = [2096153 2554867 2962532 4711468 3373778 3548443 1764893 1961992 2434108 2658626 2627832 2564733 2610212 3278169 2954882 2847604 4443650 3582780 3557718 4201288 4762243 8349689 3812924 5098353 5196422 4494087 5209715 5978150 5060982 4825367 6529020 5738726 5563959 6997601 6906020 6778559 7592484 7193865 7198439 7815078 7217336 6923856 7127406 7491410 7029097 7757883 6861948 7295746 7245947 9037505 7656431 7322897 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# NumGC = 52
# EnableGC = true
# DebugGC = false

# runtime.MemStats
# Alloc = 468642296
# TotalAlloc = 25479911160
# Sys = 1185490448
# Lookups = 278984
# Mallocs = 119997794
# Frees = 117189156
# HeapAlloc = 468642296
# HeapSys = 680919040
# HeapIdle = 174424064
# HeapInuse = 506494976
# HeapReleased = 0
# HeapObjects = 2808638
# Stack = 448397312 / 448397312
# MSpan = 6943104 / 7061504
# MCache = 9664 / 16384
# BuckHashSys = 1757422
# NextGC = 485127068
# PauseNs = [2096153 2554867 2962532 4711468 3373778 3548443 1764893 1961992 2434108 2658626 2627832 2564733 2610212 3278169 2954882 2847604 4443650 3582780 3557718 4201288 4762243 8349689 3812924 5098353 5196422 4494087 5209715 5978150 5060982 4825367 6529020 5738726 5563959 6997601 6906020 6778559 7592484 7193865 7198439 7815078 7217336 6923856 7127406 7491410 7029097 7757883 6861948 7295746 7245947 9037505 7656431 7322897 7155298 7288230 8027051 7442561 7528532 8418744 7847097 8791562 7242055 8418159 7677703 8662475 8408315 8562446 8110168 7308570 8593523 7820707 8734530 8981041 8721316 8152324 8390552 8603397 9059668 8153933 7986519 7744819 8491656 8562181 7816543 9145512 7902742 7780778 7636659 13573779 12684501 94808535 9443609 8257986 9072718 9634563 9229626 9449536 8644605 8898286 8499036 13101964 8743251 9119720 9267487 8178551 8444107 8362330 8447271 8558115 8788773 9977627 9058283 8743149 8508649 9099904 9382220 9684119 9789404 9730475 8506223 10363233 9979499 9033233 9634088 9739395 9129433 9122154 8615491 9632523 9314836 9845890 9888849 10034358 10207887 10073912 9892683 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# NumGC = 135
# EnableGC = true
# DebugGC = false

添加 cpu 配置文件 .svg 文件 attachment

最后,我想通了,我应该给 http 客户端添加超时,如下所示:

transport :=  http.Transport{
    Proxy: customProxy,
    DisableCompression: false,
    MaxIdleConnsPerHost: 10000,
    Dial: (&net.Dialer{
                Timeout:   15 * time.Second,
                KeepAlive: 15 * time.Second,
            }).Dial,
    TLSHandshakeTimeout: 5 * time.Second,
}

最佳答案

你看过这个了吗: http://craigwickesser.com/2015/01/golang-http-to-many-open-files/

基本上他建议使用 req.Header.Set("Connection", "close")

我想知道您的连接是否一直保持打开状态直到达到超时/保持事件状态,所以手动将其设置为小于默认值是否足够快地关闭连接而不会溢出?

关于http - golang http 文件太多,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35752532/

有关http - golang http 文件太多的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  3. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  4. ruby-on-rails - Rails 3 中的多个路由文件 - 2

    Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

  5. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  6. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  7. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  8. ruby - 如何模拟 Net::HTTP::Post? - 2

    是的,我知道最好使用webmock,但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou

  9. Ruby 写入和读取对象到文件 - 2

    好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信

  10. ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2

    我正在编写一个小脚本来定位aws存储桶中的特定文件,并创建一个临时验证的url以发送给同事。(理想情况下,这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针,它似乎不符合这个标准,但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A

随机推荐