文档章节

C语言下载网页源代码并保存到本地磁盘

努力喵
 努力喵
发布于 2015/11/24 02:20
字数 548
阅读 234
收藏 10
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <winsock2.h>
#pragma comment(lib, "ws2_32.lib")


int geturl(char *url)
{
    /****************解析URL,解析资源名、主机名********************/ 
    const char *parseptr1;
    const char *parseptr2;
    char host[BUFSIZ];
    char resource[BUFSIZ];
    int len, i;
    
    parseptr2 = url;
    
    parseptr1 = strstr(parseptr2, "http://");
    if(NULL == parseptr1)           //解析用户输入URL形式如"www.baidu.com" 情况 
    {
        parseptr1 = strchr(parseptr2, '/');
        len = parseptr1 - parseptr2;
        if(NULL == parseptr1) //解析主机、资源名 
        {
            strcpy(host, parseptr2);
            strcpy(resource, "/");
        }
        else     //解析用户输入URL形式如"www.baidu.com/xxx"情况 
        {
            for(i = 0; i < len; i++)
            {
                host[i] = parseptr2[i];//解析主机名 
            }
            host[len] = '\0';
            for(i = 0; i < len; i++)
            {
                parseptr2++;
            }
            strcpy(resource, parseptr2);//解析资源名 
        }
        printf("host: %s\nresouce: %s\n", host, resource);
    }
    else
    {
        parseptr1 = strchr(parseptr2, ':');  //解析用户输入URL形式如"http://www.baidu.com"情况 
        len = parseptr1 - parseptr2;
        printf("protocol: ");   //解析协议 
        for(i = 0; i < len; i++)
        {
            printf("%c", parseptr2[i]);
        }
        for(i = 0; i < 3; i++)
        {
            parseptr1++;
        }
        parseptr2 = parseptr1;
        parseptr1 = strchr(parseptr2, '/');
        len = parseptr1 - parseptr2;
        if(NULL == parseptr1)
        {
            strcpy(host, parseptr2);     //解析主机名 
            strcpy(resource, "/");       //解析资源名 
        }
        else   //解析用户输入URL形式如"http://www.baidu.com/xxx.."情况 
        {
            for(i = 0; i < len; i++)
            {
                host[i] = parseptr2[i];
            }
            host[len] = '\0';
            parseptr2 = parseptr1;
            strcpy(resource, parseptr2);
        }
        
        printf("\nhost: %s\nresource: %s\n", host, resource);
    }
    
    /*****************创建socket************/ 
    //初始化套接字
    WSADATA wsaData;
    WSAStartup(MAKEWORD(2,2), &wsaData);
    
    //创建套接字
    SOCKET sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
    if(sock == INVALID_SOCKET)
    {
        printf("Failed socket().\n");
        WSACleanup();
        return 0;
    }
    
    //设置socket参数
    struct sockaddr_in sockAddr;
    memset(&sockAddr, 0, sizeof(sockAddr));
    sockAddr.sin_family = AF_INET;
    sockAddr.sin_port = htons(80);
    
    //获取主机名和地址信息
    struct hostent *hp = gethostbyname(host);
    if(hp == NULL)
    {
        printf("Can not find host address.\n");
        return 0;
    }
    sockAddr.sin_addr.s_addr = *((unsigned long *)hp->h_addr);
    
    //连接到服务器
    if(connect(sock, (SOCKADDR *)&sockAddr, sizeof(sockAddr)) == -1)
    {
        printf("Failed connect().\n");
        WSACleanup();
        return 0;
    }
    
    
    /****************与服务器通信,收发数据***************/ 
    //准备发送数据
    char request[BUFSIZ] = "";
    //request = "GET " + resource + " HTTP/1.1\r\nHost:" + host + "\r\nConnection:Close\r\n\r\n";
    strcat(request, "GET ");
    strcat(request, resource);
    strcat(request, " HTTP/1.1\r\nHost:");
    strcat(request, host);
    strcat(request, "\r\nConnection:Close\r\n\r\n");
    
    //发送数据
    if(SOCKET_ERROR==send(sock, request, sizeof(request), 0))
    {
        printf("Send error.\n");
        closesocket(sock);
        return 0;
    }
    
    //接收数据
    FILE *fp;
    char ch;
    static char pageBuf[BUFSIZ];
    printf("Read: ");
    int ret;
    while(ret > 0)
    {
        ret = recv(sock, pageBuf, BUFSIZ, 0);
        printf("%s", pageBuf);
        if((fp = fopen("website.txt", "ab")) == NULL)//创建文件,并保存源码到本地磁盘
        {
            fprintf(stderr, "Error opening file.\n");
            exit(1);
        }
        fputs(pageBuf, fp);
        fclose(fp);
        //strnset(pageBuf, '\0', BUFSIZ);
    }
    
    closesocket(sock);
    WSACleanup();
    return 0; 
}

int main(int argc, char *argv[])
{
    char url[256];
    puts("Enter URL:");
    scanf("%s", url);
    geturl(url);
    return 0;
}


© 著作权归作者所有

共有 人打赏支持
努力喵
粉丝 5
博文 105
码字总数 34117
作品 0
广州
Apache-Commons IO

工具类一共6个: org.apache.commons.io.filefilter.FileFilterUtils org.apache.commons.io. EndianUtils FilenameUtils FileSystemUtils FileUtils IOUtils 普通地读取一个网页的源代码的代......

Zhao-Qian
2014/11/04
0
0
Python 爬虫 上篇

Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一个图片网站,获得主链接网址,并保存 python学习 二 03 爬一个图片网站-获得所有分...

gudianxiaoshuo
01/14
0
0
如何获得本地文件的源代码html

我下载了一篇网页,保存到本地文件夹里,可怎么用java获得其源代码html呀?请高人指教。

hebeijpp
2011/09/08
567
3
Java通过HttpServletResponse下载文件并避免文件名乱码

使用Java下载文件方式很常用,废话不多说,先说明一下情况。 场景:通过程序(或者定时任务)生成文件到服务器本地磁盘,数据库中保存文件生成信息(非重点),通过网页一链接下载服务器本地...

郁极风
2016/08/10
1K
0
[C++] C++程序执行过程

要理解一个程序的执行过程,首先要理解什么是编译器。我们用C语言写的程序,计算机只能识别机器语言(二进制指令),计算机并不能理解。因此,必须 将C语言转换为机器语言。编译器就是用来实...

枫兮兮
2014/03/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Mybatis中jdbcType和javaType的对应关系 

Mybatis中jdbcType和javaType的对应关系 1 JDBC Type Java Type 2 CHAR String 3 VARCHAR String 4 LONGVARCHAR String 5 NUMERIC java.math.BigDecimal 6 DECIMAL java.math.BigDecimal 7 ......

DemonsI
27分钟前
3
0
Python中字符串和datetime

遇到的问题: 今天在写一个爬虫时,需要将今天的数据和昨天、一周前的数据做比较。所以就需要一个方法可以方便的计算出指定日期的前几天的日期。比如10月3号,则一周前的日期是9月26号。 问题...

akane_oimo
29分钟前
1
0
企业级 SpringBoot 教程 (四)SpringBoot 整合JPA

JPA全称Java Persistence API.JPA通过JDK 5.0注解或XML描述对象-关系表的映射关系,并将运行期的实体对象持久化到数据库中。 JPA 的目标之一是制定一个可以由很多供应商实现的API,并且开发...

itcloud
30分钟前
2
0
白话SpringCloud | 第六章:Hystrix监控面板及数据聚合(Turbine)

前言 前面一章,我们讲解了如何整合Hystrix。而在实际情况下,使用了Hystrix的同时,还会对其进行实时的数据监控,反馈各类指标数据。今天我们就将讲解下Hystrix Dashboard和Turbine.其中Hys...

oKong
40分钟前
2
0
Java JDK 11:现在可以使用所有新功能

删除了CORBA,Java EE和JavaFX支持,但添加了十几个主要新功能 目录 哪里可以下载JDK 11 Java 11 JDK中的新功能 从Java JDK 11中删除了什么 Java Development Kit(JDK)11现已普遍可用,可供...

GuoMengyue
42分钟前
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部