文档章节

C语言下载网页源代码并保存到本地磁盘

努力喵
 努力喵
发布于 2015/11/24 02:20
字数 548
阅读 237
收藏 10
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <winsock2.h>
#pragma comment(lib, "ws2_32.lib")


int geturl(char *url)
{
    /****************解析URL,解析资源名、主机名********************/ 
    const char *parseptr1;
    const char *parseptr2;
    char host[BUFSIZ];
    char resource[BUFSIZ];
    int len, i;
    
    parseptr2 = url;
    
    parseptr1 = strstr(parseptr2, "http://");
    if(NULL == parseptr1)           //解析用户输入URL形式如"www.baidu.com" 情况 
    {
        parseptr1 = strchr(parseptr2, '/');
        len = parseptr1 - parseptr2;
        if(NULL == parseptr1) //解析主机、资源名 
        {
            strcpy(host, parseptr2);
            strcpy(resource, "/");
        }
        else     //解析用户输入URL形式如"www.baidu.com/xxx"情况 
        {
            for(i = 0; i < len; i++)
            {
                host[i] = parseptr2[i];//解析主机名 
            }
            host[len] = '\0';
            for(i = 0; i < len; i++)
            {
                parseptr2++;
            }
            strcpy(resource, parseptr2);//解析资源名 
        }
        printf("host: %s\nresouce: %s\n", host, resource);
    }
    else
    {
        parseptr1 = strchr(parseptr2, ':');  //解析用户输入URL形式如"http://www.baidu.com"情况 
        len = parseptr1 - parseptr2;
        printf("protocol: ");   //解析协议 
        for(i = 0; i < len; i++)
        {
            printf("%c", parseptr2[i]);
        }
        for(i = 0; i < 3; i++)
        {
            parseptr1++;
        }
        parseptr2 = parseptr1;
        parseptr1 = strchr(parseptr2, '/');
        len = parseptr1 - parseptr2;
        if(NULL == parseptr1)
        {
            strcpy(host, parseptr2);     //解析主机名 
            strcpy(resource, "/");       //解析资源名 
        }
        else   //解析用户输入URL形式如"http://www.baidu.com/xxx.."情况 
        {
            for(i = 0; i < len; i++)
            {
                host[i] = parseptr2[i];
            }
            host[len] = '\0';
            parseptr2 = parseptr1;
            strcpy(resource, parseptr2);
        }
        
        printf("\nhost: %s\nresource: %s\n", host, resource);
    }
    
    /*****************创建socket************/ 
    //初始化套接字
    WSADATA wsaData;
    WSAStartup(MAKEWORD(2,2), &wsaData);
    
    //创建套接字
    SOCKET sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
    if(sock == INVALID_SOCKET)
    {
        printf("Failed socket().\n");
        WSACleanup();
        return 0;
    }
    
    //设置socket参数
    struct sockaddr_in sockAddr;
    memset(&sockAddr, 0, sizeof(sockAddr));
    sockAddr.sin_family = AF_INET;
    sockAddr.sin_port = htons(80);
    
    //获取主机名和地址信息
    struct hostent *hp = gethostbyname(host);
    if(hp == NULL)
    {
        printf("Can not find host address.\n");
        return 0;
    }
    sockAddr.sin_addr.s_addr = *((unsigned long *)hp->h_addr);
    
    //连接到服务器
    if(connect(sock, (SOCKADDR *)&sockAddr, sizeof(sockAddr)) == -1)
    {
        printf("Failed connect().\n");
        WSACleanup();
        return 0;
    }
    
    
    /****************与服务器通信,收发数据***************/ 
    //准备发送数据
    char request[BUFSIZ] = "";
    //request = "GET " + resource + " HTTP/1.1\r\nHost:" + host + "\r\nConnection:Close\r\n\r\n";
    strcat(request, "GET ");
    strcat(request, resource);
    strcat(request, " HTTP/1.1\r\nHost:");
    strcat(request, host);
    strcat(request, "\r\nConnection:Close\r\n\r\n");
    
    //发送数据
    if(SOCKET_ERROR==send(sock, request, sizeof(request), 0))
    {
        printf("Send error.\n");
        closesocket(sock);
        return 0;
    }
    
    //接收数据
    FILE *fp;
    char ch;
    static char pageBuf[BUFSIZ];
    printf("Read: ");
    int ret;
    while(ret > 0)
    {
        ret = recv(sock, pageBuf, BUFSIZ, 0);
        printf("%s", pageBuf);
        if((fp = fopen("website.txt", "ab")) == NULL)//创建文件,并保存源码到本地磁盘
        {
            fprintf(stderr, "Error opening file.\n");
            exit(1);
        }
        fputs(pageBuf, fp);
        fclose(fp);
        //strnset(pageBuf, '\0', BUFSIZ);
    }
    
    closesocket(sock);
    WSACleanup();
    return 0; 
}

int main(int argc, char *argv[])
{
    char url[256];
    puts("Enter URL:");
    scanf("%s", url);
    geturl(url);
    return 0;
}


© 著作权归作者所有

共有 人打赏支持
下一篇: 简单解析URL
努力喵
粉丝 5
博文 105
码字总数 34117
作品 0
广州
私信 提问
Apache-Commons IO

工具类一共6个: org.apache.commons.io.filefilter.FileFilterUtils org.apache.commons.io. EndianUtils FilenameUtils FileSystemUtils FileUtils IOUtils 普通地读取一个网页的源代码的代......

Zhao-Qian
2014/11/04
0
0
Python 爬虫 上篇

Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一个图片网站,获得主链接网址,并保存 python学习 二 03 爬一个图片网站-获得所有分...

gudianxiaoshuo
01/14
0
0
Java通过HttpServletResponse下载文件并避免文件名乱码

使用Java下载文件方式很常用,废话不多说,先说明一下情况。 场景:通过程序(或者定时任务)生成文件到服务器本地磁盘,数据库中保存文件生成信息(非重点),通过网页一链接下载服务器本地...

郁极风
2016/08/10
1K
0
如何获得本地文件的源代码html

我下载了一篇网页,保存到本地文件夹里,可怎么用java获得其源代码html呀?请高人指教。

hebeijpp
2011/09/08
740
3
[C++] C++程序执行过程

要理解一个程序的执行过程,首先要理解什么是编译器。我们用C语言写的程序,计算机只能识别机器语言(二进制指令),计算机并不能理解。因此,必须 将C语言转换为机器语言。编译器就是用来实...

枫兮兮
2014/03/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

HashTable和Vector为什么逐渐被废弃

HashTable,不允许键值为null,还一个就是put方法使用sychronized方法进行线程同步,单线程无需同步,多线程可用concurren包的类型。 如编程思想里面说的作为工具类,封闭性做的不好没有一个...

noob_chr
昨天
0
0
Win10 下安装Win7双系统

很多人买了预装64位Win8/8.1的电脑后想重装(或者再安装一个)Win7系统,但是折腾半天发现以前的方法根本不奏效。这是因为预装Win8/8.1的电脑统一采用了UEFI+GPT引导模式,传统的BIOS(Legacy...

yaly
昨天
1
0

中国龙-扬科
昨天
1
0
假若明天来临——《AI.未来》读后感3900字

假若明天来临——《AI.未来》读后感3900字: 你有没有想过,如果有一天你被确诊为癌症患者,你会做些什么?你有没有想过,在你百年之后,你希望你的墓碑上刻写着什么内容? 在我翻开李开复老...

原创小博客
昨天
1
0
tomcat线程模型

Connector结构 BIO模式 NIO模式

grace_233
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部