linux system init

系统初始化

  1. 查看系统版本

    1
    2
    [root@localhost ~]# cat /etc/redhat-release
    CentOS Linux release 7.3.1611 (Core)
  2. 设置主机名

    1
    2
    3
    [root@localhost ~]# hostname {hostname} && echo {hostname} | tee /etc/hostname
    [root@localhost ~]# echo '{IP} {hostname}' |tee -a /etc/hosts
    [root@localhost ~]# $SHELL
  3. 硬盘格式化挂载

    1
    2
    3
    [root@[x] ~]# mkfs.xfs /dev/vdb
    [root@[x] ~]# echo '/dev/vdb /mnt xfs defaults 0 0' | tee -a /etc/fstab
    [root@[x] ~]# mount -a
  4. 设置打开最大文件数

    1
    2
    3
    [root@[x] ~]# echo '* - nproc  65535' | tee -a /etc/security/limits.conf
    [root@[x] ~]# echo '* - nofile 65535' | tee -a /etc/security/limits.conf
    [root@[x] ~]# ls /etc/security/limits.d/*|xargs rm -f
  5. 设置yum源

    1
    2
    3
    4
    5
    6
    [root@[x] ~]# mkdir /etc/yum.repos.d/backup && mv /etc/yum.repos.d/{*,backup}
    [root@[x] ~]# rpm --import http://yum.ops.com/epel/RPM-GPG-KEY-EPEL-7
    [root@[x] ~]# curl -o /etc/yum.repos.d/epel.repo http://yum.ops.com/epel-7.repo
    [root@[x] ~]# rpm --import http://yum.ops.com/centos/RPM-GPG-KEY-CentOS-7
    [root@[x] ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo http://yum.ops.com/centos-7.repo
    [root@[x] ~]# yum clean all && yum makecache
  6. 安装基础依赖库和常用工具包

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    [root@[x] ~]# yum -y groupinstall "Development Tools"
    [root@[x] ~]# yum -y install \
    make cmake \
    bison-devel \
    bzip2-devel \
    zlib zlib-devel \
    openssl openssl-devel openssl-libs openssl-static \
    pcre pcre-devel pcre-static \
    ncurses ncurses-devel ncurses-libs \
    mariadb mariadb-devel\
    curl-devel \
    expat-devel \
    gettext-devel \
    openldap openldap-devel \
    readline readline-devel readline-static \
    libssh2 libssh2-devel \
    unixODBC unixODBC-devel \
    sqlite sqlite-devel \
    tcl tcl-devel \
    perl-Digest-SHA1 \
    python-libs python-devel python2-pip python-crypto \
    perl-libs \
    perl-ExtUtils-MakeMaker \
    GeoIP GeoIP-devel \
    gperftools gperftools-devel gperftools-libs \
    libatomic_ops-devel \
    gtest gtest-devel \
    gdk-pixbuf2 gdk-pixbuf2-deve \
    libffi libffi-devel \
    libcurl libcurl-devel \
    http-parser http-parser-devel \
    libxml2* \
    libmcrypt* \
    libtool-ltdl-devel*
    [root@[x] ~]# yum -y install bash-completion fop lftp ntp ntpdate vim wget telnet dstat tree lrzsz net-tools nmap-ncat nmap sysstat dmidecode bc bind-utils
  7. 关闭selinux

    1
    2
    [root@[x] ~]# setenforce 0
    [root@[x] ~]# sed -i s/'SELINUX=enforcing'/'SELINUX=disabled'/g /etc/selinux/config
  8. 关闭防火墙

    1
    [root@[x] ~]# systemctl stop firewalld && systemctl disable firewalld
  9. 设置系统时区

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    [root@[x] ~]# ntpdate cn.pool.ntp.org

    [root@[x] ~]# [ -f /etc/localtime ] && cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
    [root@[x] ~]# [ -f /etc/sysconfig/clock ] && echo 'ZONE="Asia/Shanghai"' | tee /etc/sysconfig/clock
    [root@[x] ~]# [ -f /etc/timezone ] && echo 'Asia/Shanghai' | tee /etc/timezone
    [root@[x] ~]# [ -f /etc/sysconfig/ntpd ] && echo 'SYNC_HWCLOCK=yes' | tee -a /etc/sysconfig/ntpd

    [root@[x] ~]# cp -f /etc/{ntp.conf,ntp.conf.bak}
    [root@[x] ~]# cat > /etc/ntp.conf <<EOF
    driftfile /var/lib/ntp/drift
    restrict default nomodify notrap nopeer noquery
    restrict 127.0.0.1
    restrict ::1
    server cn.pool.ntp.org prefer
    server 0.centos.pool.ntp.org iburst
    server 1.centos.pool.ntp.org iburst
    server 2.centos.pool.ntp.org iburst
    server 3.centos.pool.ntp.org iburst
    includefile /etc/ntp/crypto/pw
    keys /etc/ntp/keys
    disable monitor
    EOF

    [root@[x] ~]# cp -f /etc/ntp/{step-tickers,step-tickers.bak}
    [root@[x] ~]# cat > /etc/ntp/step-tickers <<EOF
    cn.pool.ntp.org
    0.centos.pool.ntp.org
    1.centos.pool.ntp.org
    2.centos.pool.ntp.org
    3.centos.pool.ntp.org
    EOF

    [root@[x] ~]# systemctl start ntpd && systemctl enable ntpd

    [root@[x] ~]# iptables -I INPUT -p udp --dport 123 -j ACCEPT
  10. 安装python,并设置python源

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    [root@[x] ~]# git clone https://github.com/yyuu/pyenv.git /usr/local/pyenv

    [root@[x] ~]# echo 'export PYENV_ROOT="/usr/local/pyenv"' | tee /etc/profile.d/pyenv.sh
    [root@[x] ~]# echo 'export PATH="$PYENV_ROOT/bin:$PATH"' | tee -a /etc/profile.d/pyenv.sh
    [root@[x] ~]# echo 'eval "$(pyenv init -)"' | tee -a /etc/profile.d/pyenv.sh
    [root@[x] ~]# source /etc/profile

    [root@[x] ~]# mkdir -p ${PYENV_ROOT}/cache
    [root@[x] ~]# ls ${PYENV_ROOT}/cache/Python-2.7.13.tar.xz 将源码包放到这里
    [root@[x] ~]# pyenv install 2.7.13
    [root@[x] ~]# pyenv global 2.7.13

    [root@[x] ~]# mkdir ~/.pip
    [root@[x] ~]# cat > ~/.pip/pip.conf <<EOF
    [global]
    trusted-host=mirrors.aliyun.com
    index-url=http://mirrors.aliyun.com/pypi/simple/
    [list]
    format=columns
    EOF
  11. 设置开机启动文件权限

    1
    [root@[x] ~]# chmod +x /etc/rc.d/rc.local
  12. 创建常见目录

    1
    [root@[x] ~]# mkdir -p /mnt/{app,data,log,web,ops/{app,data,cron}}

HTTP 严格传输安全HSTS

HTTP 严格传输安全HSTS

  1. 简介

    1
    HTTP严格传输安全(HSTS)是一种安全功能,WEB服务器通过它来告诉浏览器仅用HTTPS来与之通讯,而不是使用HTTP.
  2. HSTS是什么?

    1
    2
    3
    4
    5
    6
    7
    8
    9
    如果一个WEB服务器支持HTTP访问,并将其重定向到HTTPS访问的话,那么访问者在重定向前的初始会话是非加密的.这就给了中间人攻击的一个机会,重定向可能会被破坏,从而定向到一个恶意站点而不是应该访问的加密页面

    HTTP严格传输安全(HSTS)功能使WEB服务器告知浏览器绝不使用HTTP访问,在浏览器端自动将所有到该站点的HTTP访问替换为HTTPS访问

    HSTS可以用来抵御SSL剥离攻击: SSL剥离攻击是中间人攻击的一种,由Moxie Marlinspike于2009年发明.他在当年的黑帽大会上发表的题为"New Tricks For Defeating SSL In Practice"的演讲中将这种攻击方式公开.SSL剥离的实施方法是阻止浏览器与服务器创建HTTPS连接.它的前提是用户很少直接在地址栏输入"https://",用户总是通过点击链接或3xx重定向,从HTTP页面进入HTTPS页面.所以攻击者可以在用户访问HTTP页面时替换所有"https://"开头的链接为"http://",达到阻止HTTPS的目的

    HSTS可以很大程度上解决SSL剥离攻击,因为只要浏览器曾经与服务器创建过一次安全连接,之后浏览器会强制使用HTTPS,即使链接被换成了HTTP.另外,如果中间人使用自己的自签名证书来进行攻击,浏览器会给出警告,但是许多用户会忽略警告.HSTS解决了这一问题,一旦服务器发送了HSTS字段,用户将不再允许忽略警告

    注意: 如果你之前没有使用HTTPS访问过该站点,那么HSTS是不奏效的.网站需要通过HTTPS协议告诉你的浏览器它支持HSTS
  3. 服务端开启HSTS

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    服务器开启HSTS的方法是,当客户端通过HTTPS发出请求时,在服务器返回的HTTP响应头中包含"Strict-Transport-Security"字段.非加密传输时设置的HSTS字段无效.

    nginx:
    在https的server中设置:
    add_header Strict-Transport-Security "max-age:63072000;includeSubdomains;preload";

    apache:
    在virtualhost中添加:
    <VirtualHost 1.1.1.1:443>
    Header always set Strict-Transport-Security "max-age:63072000;includeSubdomains;preload"
    </VirtualHost>

    //HTTP重定向HTTPS
    <VirtualHost *:80>
    ServerName test.com
    Redirect permanent / https://test.com/
    </VirtualHost>

    综上,
    在你的WEB站点在每次访问时都会发送该请求头,失效时间是两年(秒数).这个失效时间每次都会设置为两年后,所以,明天你访问时,它会设置为明天的两年后

一次完整的HTTP请求

一次完整的HTTP请求

  1. 一次性完整的HTTP请求过程
    1
    2
    3
    4
    5
    6
    1.域名解析 =>
    2.发起TCP的3次握手 =>
    3.发起HTTP请求 =>
    4.服务器响应HTTP请求,浏览器得到HTML代码 =>
    5.浏览器解析HTML代码,并请求HTML代码中的资源(如js,css,图片等)
    6.浏览器对页面进行渲染呈现给用户

详解请求过程

  1. 域名解析

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    在浏览器(Chrome)中输入域名"www.smallasa.com",敲回车键,进行域名解析为IP地址:
    1.浏览器(Chrome)会首先搜索浏览器自身的DNS缓存
    查看自身缓存中是否有"www.smallasa.com"对应的条目,而且没有过期.
    如果有对应条目且没有过期,则解析到此结束

    注意:浏览器缓存时间比较短,大概只有1分钟,且只能容纳1000条缓存
    注意:浏览器(Chrome)自身缓存查看: chrome://net-internals/#dns

    2.如果浏览器自身的缓存里面没有找到对应的条目
    那么浏览器会搜索操作系统自身的DNS缓存
    如果找到且没有过期,则停止搜索解析并到此结束.

    注意:
    ipconfig/displaydns windows查看dns缓存
    nscg -d linux查看dns缓存(linux系统一般默认关闭,yum -y install nscg)


    3.如果在系统自身的DNS缓存中也没有找到
    那么尝试读取系统hosts文件,查找该域名对应的条目,如果有则解析成功

    注意:
    C:\Windows\System32\drivers\etc\hosts windows hosts文件位置
    /etc/hosts linux hosts文件位置

    4.如果在hosts文件中也没有找到对应的条目
    浏览器就会发起一个DNS的系统调用,
    该调用会向本地配置的首选DNS服务器发起域名解析请求(通过UDP协议向DNS的53端口发起请求,这个请求是递归的请求)
    运营商的DNS服务器首先查找自身的缓存,找到对应的条目,且没有过期,则解析成功.
    如果没有找到对应的条目,则由运营商的DNS代表我们的浏览器发起迭代DNS解析请求,它首先是会找根域的DNS的IP地址(这个DNS服务器都内置13台根域的DNS的IP地址),找到根域的DNS地址,就会向其发起请求(请问www.smallasa.com这个域名的IP地址是多少?),根域发现这是一个顶级域com域的一个域名,于是就告诉运营商的DNS我不知道这个域名的IP地址,但是我知道com域的IP地址,你去找它,于是运营商的DNS就得到了com域的IP地址,又向com域的IP地址发起了请求(请问www.smallasa.com这个域名的IP地址是多少?),com域这台服务器告诉运营商的DNS我不知道www.smallasa.com这个域名的IP地址,但是我知道smallasa.com这个域的DNS地址,你去找它,于是运营商的DNS又向smallasa.com这个域名的DNS地址发起请求(请问www.smallasa.com这个域名的IP地址是多少?),这个时候smallasa.com域的DNS服务器一查,果真在我这里,于是就把找到的结果发送给运营商的DNS服务器,这个时候运营商的DNS服务器就拿到了www.smallasa.com这个域名对应的IP地址,并返回给系统内核,内核又把结果返回给浏览器,终于浏览器拿到了www.smallasa.com对应的IP地址,该进行下一步TCP三次握手动作了

    如果经过以上的4个步骤,还没有解析成功,那么会进行如下步骤:
    (主要针对windows服务器)
    5.操作系统就会查找NetBIOS name Cache(NetBIOS名称缓存,就存在客户端电脑中的).凡是最近一段时间内和我成功通讯的计算机的计算机名和Ip地址,都会存在这个缓存里面.什么情况下该步能解析成功呢?就是该名称正好是几分钟前和我成功通信过,那么这一步就可以成功解析.

    6.如果NetBIOS name Cache解析不成功,那会查询WINS服务器(是NETBIOS名称和IP地址对应的服务器)

    7.如果查询WINS服务器也没有查询成功,那么客户端就要进行广播查找

    8.如果进行广播查找也没有成功,那么客户端就读取LMHOSTS文件(和HOSTS文件同一个目录下,写法也一样)

    9.如果读取LMHOSTS文件还没有解析成功,那么就宣告这次解析失败,那就无法跟目标计算机进行通信.

    只要这八步中有一步可以解析成功,那就可以成功和目标计算机进行通信
  2. 发起TCP的三次握手

    1
    浏览器拿到域名对应的IP地址之后,浏览器User-Agent会以一个随机端口(1024< 端口 <65535)向服务器的WEB程序(httpd,nginx,IIS)80端口发起TCP的连接请求.这个连接请求(原始的http请求经过TCP/IP4层模型的层层封包)到达服务器端后(这中间通过各种路由设备,局域网内除外),进入到网卡,然后是进入到内核的TCP/IP协议栈(用于识别该连接请求,解封包,一层一层的剥开),还有可能要经过Netfilter防火墙(属于内核的模块)的过滤,最终到达WEB程序(本文就以Nginx为例),最终建立了TCP/IP的连接

TCP三次握手

1
2
3
4
5
1.客户端首先发送一个连接试探,ACK=0表示确认号无效,SYN=1表示这是一个连接请求或连接接受报文,同时表示这个数据报不能携带数据,seq=J表示客户端自己的初始序号(seq=0代表这是第0号包),这时候客户端进入SYN_SENT状态,表示客户端等待服务器的回复

2.服务端监听到连接请求报文后,如同意建立连接,则向Client发送确认.TCP报文首部中的SYN和ACK都置1,ack=J+1表示期望收到对方下一个报文段的第一个数据字节序号是J+1,同时表明J为止的所有数据都已正确收到(ack=1其实是ack=0+1,也就是期望客户端的第1个包),seq=K表示服务端自己的初始序号(seq=0代表这是服务器这边发出的第0号包).这时服务器进入SYN_REVD,表示服务器已经收到客户端的连接请求,等待客户端的确认

3.客户端收到确认后还需再次发送确认,同时携带要发送给服务端的数据.ACK=1表示确认号,ack=K+1代表期望收到服务器的第1个包,客户端自己的序号seq=J+1表示这就是我的第1个包,相对于第0个包来说的,一旦收到Client的确认之后,这个TCP连接就进入Established状态,就可以发起http请求了

  1. 建立TCP连接后发起HTTP请求

    1
    进过TCP3次握手之后,浏览器发起了http的请求,使用的http的方法GET方法,请求的URL是/,协议是HTTP/1.0
  2. 服务器端响应HTTP请求,浏览器得到HTML代码

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    服务器端WEB程序接收到HTTP请求以后,就开始处理该请求,处理之后就返回给浏览器html文件

    假设服务器端使用nginx+PHP(fastcgi)架构提供服务:
    1.nginx读取配置文件
    我们在浏览器的地址栏里面输入的是"www.smallasa.com",其实完整的应该是"http://www.smallasa.com./",后面还有个点(这个点代表就是根域,一般情况下我们不用输入,也不显示),后面的"/"也是不用添加,浏览器会自动帮我们添加.那么实际请求的URL是"http://www.smallasa.com/",Nginx在收到浏览器"GET /"请求时,会读取http请求里面的头部信息,根据Host来匹配 自己的所有的虚拟主机的配置文件的server_name,看看有没有匹配的,有匹配那么就读取该虚拟主机的配置,发现如下配置:
    root /web/echo
    通过这个配置就知道所有网页文件的就在这个目录下,这个目录就是"/".当我们访问"http://www.smallasa.com/"时就是访问这个目录下面的文件.例如,"http://www.smallasa.com/index.html",那么代表"/web/echo"下面有个文件叫"index.html"

    index index.html index.htm index.php
    通过这个就能得知网站的首页文件是那个文件,也就是我们在输入"http://www.smallasa.com/",nginx就会自动帮我们把index.html加到后面,那么添加之后的URL是"/index.html",然后根据后面的配置进行处理.
    注意:假设首页是index.php,当然是会尝试的去找到该文件,如果没有找到该文件就依次往下找,如果这3个文件都没有找到,那么就抛出一个404错误

    location ~ .*\.php(\/.*)*$ {
    root /web/echo;
    fastcgi_pass 127.0.0.1:9000;
    fastcgi_index index.php;
    astcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
    include fastcgi_params;
    }
    这一段配置指明凡是请求的URL中匹配(这里是启用了正则表达式进行匹配)"*.php"后缀的,后面跟的参数的,都交给后端的fastcgi进程进行处理

    把php文件交给fastcgi进程去处理:
    于是nginx把"/index.php"这个URL交给了后端的fastcgi进程处理,等待fastcgi处理完成后(结合数据库查询出数据,填充模板生成html文件)返回给nginx一个index.html文档,Nginx再把这个index.html返回给浏览器,于是乎浏览器就拿到了首页的html代码,同时nginx写一条访问日志到日志文件中去


    注1:nginx是怎么找index.php文件的?
    当nginx发现需要"/web/echo/index.php"文件时,就会向内核发起IO系统调用(因为要跟硬件打交道,这里的硬件是指硬盘,通常需要靠内核来操作,而内核提供的这些功能是通过系统调用来实现的),告诉内核,我需要这个文件,内核从"/"开始找到web目录,再在web目录下找到echo目录,最后在echo目录下找到index.php文件,于是把这个index.php从硬盘上读取到内核自身的内存空间,然后再把这个文件复制到nginx进程所在的内存空间,于是乎nginx就得到了自己想要的文件了

    注2:寻找文件在文件系统层面是怎么操作的?
    每个分区(像ext3 ext3等文件系统,block块是文件存储的最小单元 默认是4096字节)都是包含元数据区和数据区,每一个文件在元数据区都有元数据条目(一般是128字节大小),每一个条目都有一个编号,我们称之为inode(index node 索引节点),这个inode里面包含:文件类型、权限、连接次数、属主和数组的ID、时间戳、这个文件占据了那些磁盘块也就是块的编号(block,每个文件可以占用多个block,并且block不一定是连续的,每个block是有编号的)还有一个要点:目录其实也普通是文件,也需要占用磁盘块,目录不是一个容器.你看默认创建的目录就是4096字节,也就说只需要占用一个磁盘块,但这是不确定的.所以要找到目录也是需要到元数据区里面找到对应的条目,只有找到对应的inode就可找到目录所占用的磁盘块

    那么内核究竟是怎么找到index.php这个文件的呢?
    内核拿到nginx的IO系统调用要获取/web/echo/index.php这个文件请求之后
    ① 内核读取元数据区 / 的inode,从inode里面读取/所对应的数据块的编号,然后在数据区找到其对应的块(1 2号块),读取1号块上的映射表找到web这个名称在元数据区对应的inode号
    ② 内核读取web对应的inode(3号),从中得知web在数据区对应的块是5号块,于是到数据区找到5号块,从中读取映射表,知道echo对应的inode是5号,于是到元数据区找到5号inode
    ③ 内核读取5号inode,得到echo在数据区对应的是11号块,于是到数据区读取11号块得到映射表,得到index.php对应的inode是9号
    ④ 内核到元数据区读取9号inode,得到index.php对应的是15和16号数据块,于是就到数据区域找到15 16号块,读取其中的内容,得到index.php的完整内容
  3. 浏览器解析html代码,并请求html代码中的资源

    1
    2
    3
    浏览器拿到index.html文件后,就开始解析其中的html代码,遇到js/css/image等静态资源时,就向服务器端去请求下载(会使用多线程下载,每个浏览器的线程数不一样),这个时候就用上keep-alive特性了,建立一次HTTP连接,可以请求多个资源,下载资源的顺序就是按照代码里的顺序,但是由于每个资源大小不一样,而浏览器又多线程请求请求资源,所以从下图看出,这里显示的顺序并不一定是代码里面的顺序

    浏览器在请求静态资源时(在未过期的情况下),向服务器端发起一个http请求(询问自从上一次修改时间到现在有没有对资源进行修改),如果服务器端返回304状态码(告诉浏览器服务器端没有修改),那么浏览器会直接读取本地的该资源的缓存文件
  4. 浏览器对页面进行渲染呈现给用户

    1
    2
    最后,浏览器利用自己内部的工作机制,把请求到的静态资源和HTML代码进行渲染,渲染之后呈现给用户
    自此一次完整的HTTP事务宣告完成

linux 文件系统inode

linux 文件系统inode

  1. 简介

    1
    2
    3
    4
    inode是一个重要概念,是理解Unix/Linux文件系统和硬盘储存的基础

    理解inode,不仅有助于提高系统操作水平,还有助于体会Unix设计哲学,即:
    如何把底层的复杂性抽象成一个简单概念,从而大大简化用户接口
  2. inode是什么?

    1
    2
    3
    4
    5
    理解inode,
    首先,需要从文件存储说起,文件存储在硬盘上
    其次,硬盘的最小存储单位叫做"扇区"(Sector),每个扇区存储512字节(相当于0.5KB).
    然后,操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block).这种由多个扇区组成的"块",是文件存取的最小单位."块"的大小,最常见的是4KB,即连续八个"扇区"组成一个"块".
    最后,文件的数据都储存在"块"中,我们还必须找到一个地方储存文件的元信息(比如,文件的创建者,文件的创建日期,文件的大小等等).这种储存文件元信息的区域就叫做inode,中文译名为"索引节点".每一个文件都有对应的inode,里面包含了与该文件有关的一些信息
  3. inode的内容

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    inode包含的元信息:
    * 文件的字节数
    * 文件属主
    * 文件数组
    * 文件的读,写,执行权限
    * 文件数据块的位置
    * 链接数,即有多少文件名指向这个inode
    * 文件的时间戳:
    ctime指inode上一次变动的时间
    mtime指文件内容上一次变动的时间
    atime指文件上一次打开的时间

    [root@dev ~]# touch smallasa.txt
    [root@dev ~]# stat smallasa.txt
    File: ‘smallasa.txt’
    Size: 0 Blocks: 0 IO Block: 4096 regular empty file
    Device: fd01h/64769d Inode: 67237570 Links: 1
    Access: (0644/-rw-r--r--) Uid: ( 0/ root) Gid: ( 0/ root)
    Access: 2017-09-15 10:28:57.304438000 +0800
    Modify: 2017-09-15 10:28:57.304438000 +0800
    Change: 2017-09-15 10:28:57.304438000 +0800
    Birth: -
  4. inode的大小

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    inode也会消耗硬盘空间,所以硬盘格式化的时候,操作系统自动将硬盘分成两个区域:
    一个是数据区,用于存放文件数据
    一个是inode区(inode table),用于存放inode所包含的信息

    每个inode节点的大小,一般是128字节或256字节。inode节点的总数,在格式化时就给定,一般是每1KB或每2KB就设置一个inode。假定在一块1GB的硬盘中,每个inode节点的大小为128字节,每1KB就设置一个inode,那么inode table的大小就会达到128MB,占整块硬盘的12.8%。

    //查看磁盘inode总数,使用量
    [root@dev ~]# df -i
    Filesystem Inodes IUsed IFree IUse% Mounted on
    /dev/mapper/centos-root 18358272 113044 18245228 1% /
    devtmpfs 483828 358 483470 1% /dev
    tmpfs 485436 1 485435 1% /dev/shm
    tmpfs 485436 424 485012 1% /run
    tmpfs 485436 13 485423 1% /sys/fs/cgroup
    /dev/vdb 104857600 55773 104801827 1% /mnt
    /dev/vda1 512000 330 511670 1% /boot
    tmpfs 485436 1 485435 1% /run/user/0
  5. inode号码

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    每个inode都有一个号码,操作系统用inode号码来识别不同的文件

    注意: Unix/Linux系统内部不使用文件名,而使用inode号码来识别文件.对于系统来说,文件名只是inode号码便于识别的别称或者绰号

    用户打开文件,实际上系统内部经过了三个步骤:
    首先,系统找到这个文件名对应的inode号码
    其次,通过inode号码,获取inode信息
    最后,根据inode信息,找到文件数据所在的block,读出数据

    //查看文件inode号
    [root@dev ~]# ls -i smallasa.txt
    67237570 smallasa.txt
  6. 目录文件

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    Unix/Linux系统中,目录(directory)也是一种文件.打开目录,实际上就是打开目录文件
    目录文件的结构非常简单,就是一系列目录项(dirent)的列表.每个目录项,由两部分组成:所包含文件的文件名,以及该文件名对应的inode号码


    [root@dev ~]# mkdir test
    [root@dev ~]# touch test/{a,b,c}
    [root@dev ~]# ls -i test/
    154095 a 154103 b 154104 c
    [root@dev ~]# ls -l test/
    total 0
    -rw-r--r-- 1 root root 0 Sep 15 10:55 a
    -rw-r--r-- 1 root root 0 Sep 15 10:55 b
    -rw-r--r-- 1 root root 0 Sep 15 10:55 c
  7. 硬链接

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    一般情况下,文件名和inode号码是"一一对应"关系,每个inode号码对应一个文件名
    但是,Unix/Linux系统允许多个文件名指向同一个inode号码,这意味着可以用不同的文件名访问同样的内容,对文件内容进行修改,会影响到所有文件名,但是,删除一个文件名,不影响另一个文件名的访问.这种情况就被称为"硬链接"(hard link)


    [root@dev ~]# ls -li smallasa.txt
    67237570 -rw-r--r-- 1 root root 0 Sep 15 10:59 smallasa.txt
    [root@dev ~]# ln smallasa.txt smallasa.A
    [root@dev ~]# ls -li smallasa.txt smallasa.A
    67237570 -rw-r--r-- 2 root root 0 Sep 15 10:59 smallasa.A
    67237570 -rw-r--r-- 2 root root 0 Sep 15 10:59 smallasa.txt

    如上:
    inode信息中有一项叫做"链接数",记录指向该inode的文件名总数.
    每创建一个硬链接,会使得inode节点中的"链接数"加1
    每删除一个硬链接,会使得inode节点中的"链接数"减1
    inode节点中的"链接数"减到0,表明没有文件名指向这个inode,系统就会回收这个inode号码,以及其所对应block区域

    [root@dev ~]# mkdir test
    [root@dev ~]# ls -lia test/
    total 4
    68058947 drwxr-xr-x 2 root root 6 Sep 15 11:08 .
    67149953 dr-xr-x---. 17 root root 4096 Sep 15 11:08 ..
    [root@dev ~]# ls -liad test/
    68058947 drwxr-xr-x 2 root root 6 Sep 15 11:08 test/

    如上,
    创建目录时,默认会生成两个目录项: "." 和 ".."
    前者的inode号码就是当前目录的inode号码,等同于当前目录的"硬链接"
    后者的inode号码就是当前目录的父目录的inode号码,等同于父目录的"硬链接"
    所以,任何一个目录的"硬链接"总数,总是等于2
  8. 软连接

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    文件A和文件B的inode号码虽然不一样,但是文件A的内容是文件B的路径.当读取文件A时,系统会自动将访问者导向文件B.因此,无论打开哪一个文件,最终读取的都是文件B.这时,文件A就称为文件B的"软链接"(soft link)或者"符号链接"(symbolic link)

    这意味着,文件A依赖于文件B而存在,如果删除了文件B,打开文件A就会报错: "No such file or directory".这是软链接与硬链接最大的不同: 文件A指向文件B的文件名,而不是文件B的inode号码,文件B的inode"链接数"不会因此发生变化

    [root@dev ~]# ls -li smallasa.txt
    67237570 -rw-r--r-- 1 root root 0 Sep 15 10:59 smallasa.txt
    [root@dev ~]# ln -s smallasa.txt smallasa.A
    [root@dev ~]# ls -li smallasa.txt smallasa.A
    68058948 lrwxrwxrwx 1 root root 12 Sep 15 11:14 smallasa.A -> smallasa.txt
    67237570 -rw-r--r-- 1 root root 0 Sep 15 10:59 smallasa.txt
  9. inode的特殊作用

    1
    2
    3
    4
    5
    6
    由于inode号码与文件名分离,这种机制导致了一些Unix/Linux系统特有的现象:
    1.有时文件名包含特殊字符,无法正常删除.这时,直接删除inode节点,就能起到删除文件的作用
    2.移动文件或重命名文件时,只是改变文件名,不影响inode号码
    3.打开一个文件以后,系统就以inode号码来识别这个文件,不再考虑文件名.因此,系统无法从inode号码得知文件名

    第3点使得软件更新变得简单,可以在不关闭软件的情况下进行更新,不需要重启.因为系统通过inode号码,识别运行中的文件,不通过文件名.更新的时候,新版文件以同样的文件名,生成一个新的inode,不会影响到运行中的文件.等到下一次运行这个软件的时候,文件名就自动指向新版文件,旧版文件的inode则被回收.

linux 文件描述符与打开文件之间的关系

linux 文件描述符与打开文件之间的关系

  1. 简述

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    在Linux系统中一切皆可以看成是文件.文件又可分为:普通文件,目录文件,链接文件和设备文件

    文件描述符(file descriptor)是内核为了高效管理已被打开的文件所创建的索引,其是一个非负整数(通常是小整数),用于指代被打开的文件,所有执行I/O操作的系统调用都通过文件描述符.
    例如: 程序刚刚启动的时候,0是标准输入,1是标准输出,2是标准错误.如果此时去打开一个新的文件,它的文件描述符会是3.

    POSIX标准要求每次打开文件时(含socket)必须使用当前进程中最小可用的文件描述符号码,因此,在网络通信过程中稍不注意就有可能造成串话.

    标准文件描述符图如下:
    文件描述符: 0 1 2
    用途: 标准输入 标准输出 标准错误
    POSIX标准: STDIN_FILENO STDOUT_FILENO STDERR_FILENO
    stdio流: stdin stdout stderr
  2. 文件描述限制

    1
    2
    3
    4
    5
    6
    7
    在编写文件操作的或者网络通信的软件时,初学者一般可能会遇到"Too many open files"的问题.这主要是因为文件描述符是系统的一个重要资源.

    虽然说系统内存有多少就可以打开多少的文件描述符,但是在实际实现过程中内核是会做相应的处理的,一般最大打开文件数会是系统内存的10%(以KB来计算,称之为系统级限制)
    与此同时,内核为了不让某一个进程消耗掉所有的文件资源,其也会对单个进程最大打开文件数做默认值处理(称之为用户级限制),默认值一般是1024

    查看系统级别的最大打开文件数: sysctl -a|grep fs.file-max
    查看用户级别的最大打开文件数: ulimit -n
  3. 文件描述符和打开文件之间的关系

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    每一个文件描述符会与一个打开文件相对应,不同的文件描述符也会指向同一个文件.
    相同的文件可以被不同的进程打开也可以在同一个进程中被多次打开.

    系统为每一个进程维护了一个文件描述符表,该表的值都是从0开始的,所以在不同的进程中你会看到相同的文件描述符,这种情况下相同文件描述符有可能指向同一个文件,也有可能指向不同的文件.

    具体情况要具体分析,要理解具体其概况如何,需要查看由内核维护的3个数据结构:
    1.进程级的打开文件描述符表
    2.系统级的打开文件描述符表
    3.文件系统的i-node表


    进程级的打开描述符表中的每一条信息都记录了单个文件描述符的相关信息:
    1.控制文件描述符操作的一组标志
    2.对打开文件句柄的引用

    内核对所有打开的文件维护有一个系统级的描述符表格(open file description table),也称之为打开文件表(open file table),并将表格中每条信息称为打开文件句柄(open file handle)

    一个打开文件句柄存储了一个与打开文件相关的全部信息,如下:
    1.当前文件偏移量(调用read()和write()时更新,或使用lseek()直接修改)
    2.打开文件时所使用的状态标识(即,open()的flags参数)
    3.文件访问模式(如调用open()时所设置的只读模式,只写模式或读写模式)
    4.与信号驱动相关的设置
    5.对该文件i-node对象的引用
    6.文件类型(如,常规文件,套接字或FIFO)和访问权限
    7.一个指针,指向该文件所持有的锁列表
    8.文件的各种属性,包括文件大小以及与不同类型操作相关的时间戳

文件描述符与打开文件之间的关系

1
2
3
4
5
6
7
如上,文件描述符,打开的文件句柄以及i-node之间的关系
图中,两个进程拥有诸多打开的文件描述符
在进程A中,文件描述符1和30都指向了同一个打开的文件句柄(标号23).这可能是通过调用dup(),dup2(),fcntl()或者对同一个文件多次调用了open()函数而形成的

进程A的文件描述符2和进程B的文件描述符2都指向了同一个打开的文件句柄(标号73).这种情形可能是在调用fork()后出现的(即,进程A,B是父子进程关系),或者当某进程通过UNIX域套接字将一个打开的文件描述符传递给另一个进程时,也会发生.再者是不同的进程独自去调用open函数打开了同一个文件,此时进程内部的描述符正好分配到与其他进程打开该文件的描述符一样

此外,进程A的描述符0和进程B的描述符3分别指向不同的打开文件句柄,但这些句柄均指向i-node表的相同条目(1976).换言之,指向同一个文件.发生这种情况是因为每个进程各自对同一个文件发起了open()调用.同一个进程两次打开同一个文件,也会发生类似情况.

  1. 综上总结
    1
    2
    3
    4
    1.由于进程级文件描述符表的存在,不同的进程中会出现相同的文件描述符,它们可能指向同一个文件,也可能指向不同的文件
    2.两个不同的文件描述符,若指向同一个打开文件句柄,将共享同一文件偏移量.因此,如果通过其中一个文件描述符来修改文件偏移量(调用read(),write()或lseek()),那么从另一个描述符中也会观察到变化,无论这两个文件描述符是否属于不同进程,还是同一个进程,情况都是如此
    3.要获取和修改打开的文件标志(如:O_APPEND,O_NONBLOCK和O_ASYNC),可执行fcntl()的F_GETFL和F_SETFL操作,其对作用域的约束与上一条颇为类似
    4.文件描述符标志(即,close-on-exec)为进程和文件描述符所私有.对这一标志的修改将不会影响同一进程或不同进程中的其他文件描述符

linux 内存插槽 内存信息

linux 内存插槽 内存信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
//查看内存插槽数
dmidecode|grep 'Memory Device'|wc -l

//查看内存插槽上有几条内存
dmidecode|grep -P -A5 "Memory\s+Device"|grep Size|grep -v Installed|wc -l

//查看插槽上的内存大小
dmidecode|grep -P -A5 "Memory\s+Device"|grep Size|grep -v Installed

//查看最大支持内存数
dmidecode|grep -P 'Maximum\s+Capacity'

//查看槽位上内存的速率,没插就是unknown
dmidecode|grep -A16 "Memory Device"|grep 'Speed'|grep -v Unknown

//查看服务器机型
dmidecode |grep -A 5 "System Information" |grep "Product Name"

linux 物理CPU CPU核数 逻辑CPU

linux 物理CPU CPU核数 逻辑CPU

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
物理CPU:
物理服务器上中插槽上的CPU个数
物理cpu数量,可以统计"/proc/cpuinfo"中不重复的"physical id":
统计: cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

CPU核数:
一块CPU上面能处理数据的芯片组的数量
一般来说,"物理CPU个数" × "每颗核数" 就应该等于逻辑CPU的个数,如果不相等的话,则表示服务器的CPU支持超线程技术
统计: cat /proc/cpuinfo| grep "cpu cores"| uniq

逻辑CPU:
"/proc/cpuinfo"用来存储cpu硬件信息,其中列出了"processor N",N表示逻辑CPU数,从0开始
一般情况,我们认为一颗cpu可以有多核,加上intel的超线程技术(HT),可以在逻辑上再分一倍数量的cpu core出来
逻辑CPU数量=物理cpu数量 x cpu cores 这个规格值 x 2(如果支持并开启ht,有的是4)
统计: cat /proc/cpuinfo| grep "processor"| wc -l

CPU型号: cat /proc/cpuinfo | grep name |cut -f2 -d:|sort|uniq

TCP与socket区别

TCP与socket区别

  1. 网络中进程之间如何通信?

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    进程通信的概念最初来源于单机系统.
    由于每个进程都在自己的地址范围内运行,为保证两个相互通信的进程之间既互不干扰又协调一致工作,
    操作系统为进程通信提供了相应设施,如:
    * UNIX BSD有: 管道(pipe),命名管道(named pipe),软中断信号(signal)
    * UNIX system V有: 消息(message),共享存储区(shared memory)和信号量(semaphore)等
    注意,他们都仅限于用在本机进程之间通信!


    网络间进程通信要解决的是不同主机进程间的相互通信问题:
    首先,要解决网络间进程标识问题.同一主机上,不同进程可用进程号唯一标识;不同主机上,各自独立分配的进程号不能唯一标识该进程
    其次,要解决网络进程间多重协议的识别问题.操作系统支持的网络协议众多,不同协议的工作方式不同,地址格式也不同

    以上两个问题,TCP/IP协议族已经帮我们解决了:
    网络层的"ip地址"可以唯一标识网络中的主机;传输层的"协议+端口"可以唯一标识主机中的应用程序(进程)
    这样利用三元组(ip地址,协议,端口)就可以标识网络进程了,网络中的进程通信就可以利用这个标志与其它进程进行交互

    使用TCP/IP协议的应用程序通常采用应用编程接口 "UNIX BSD的套接字(socket)" 和 "UNIX System V的TLI(已被淘汰)" 来实现网络进程之间的通信.就目前而言,几乎所有的应用程序都是采用socket,而现在又是网络时代,网络中进程通信是无处不在,这就是我为什么说"一切皆socket"
  2. Socket在TCP/IP模型中的位置

    1
    2
    3
    4
    TCP/IP协议存在于系统中,网络服务通过系统提供,在系统中增加支持TCP/IP的系统调用---Berkeley套接字,如:Socket,Connect,Send,Recv等

    TCP/IP协议族包括应用层,传输层,网络层,数据链路层,Socket是 应用层 与 TCP/IP协议族 通信的中间软件抽象层
    如图:

TCP/IP Socket抽象层位置

  1. Socket是什么?

    1
    2
    3
    4
    网络中的进程是通过socket来通信的,那什么是socket呢?
    Socket起源于UNIX,在Unix一切皆文件哲学的思想下.Socket可以用"打开(open) –> 读写(write/read) –> 关闭(close)"模式实现.服务器和客户端各自维护一个"文件",在建立连接打开后,可以向自己文件写入内容供对方读取或者读取对方内容,通讯结束时关闭文件。

    通俗讲,Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议
  2. Socket通信流
    Socket通信流

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    * socket()函数
    int socket(int domain, int type, int protocol);

    Socket函数对应于普通文件的打开操作.
    普通文件的打开操作返回一个文件描述字,而socket()函数用于创建一个socket描述符(socket descriptor),它唯一标识一个socket.这个socket描述字跟文件描述字一样,后续的操作都有用到它,把它作为参数,通过它来进行一些读写操作.

    创建socket的时候,可以指定不同的参数创建不同的socket描述符
    Socket函数的三个参数分别为:
    * domain,即协议域,又称为协议族(family)
    常用的协议族有: AF_INET,AF_INET6,AF_LOCAL(或称AF_UNIX,Unix域socket),AF_ROUTE等等
    协议族决定了socket的地址类型,在通信中必须采用对应的地址,如: AF_INET决定了要用ipv4地址(32位的)与端口号(16位的)的组合;AF_UNIX决定了要用一个绝对路径名作为地址
    * type,指定socket类型
    常用的socket类型有: SOCK_STREAM,SOCK_DGRAM,SOCK_RAW,SOCK_PACKET,SOCK_SEQPACKET等等
    * protocol,指定协议
    常用的协议有: IPPROTO_TCP,IPPTOTO_UDP,IPPROTO_SCTP,IPPROTO_TIPC等,它们分别对应TCP传输协议,UDP传输协议,STCP传输协议,TIPC传输协议
    注意: 上面的type和protocol并不可以随意组合的,如: SOCK_STREAM不可以跟IPPROTO_UDP组合;当protocol为0时,会自动选择type类型对应的默认协议

    当我们调用socket创建一个socket时,返回的socket描述符存在于协议族(address family,AF_XXX)空间中,但没有一个具体的地址.如果想要给它赋值一个地址,就必须调用bind()函数,否则就当调用connect(),listen()时系统会自动随机分配一个端口

    * bind()函数
    bind()函数把一个地址族中的特定地址赋给socket
    例如,对应AF_INET,AF_INET6就是把一个ipv4或ipv6地址和端口号组合赋给socket

    int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
    函数的三个参数分别为:
    * sockfd,即socket描述字
    它是通过socket()函数创建了,唯一标识一个socket.bind()函数就是将给这个描述字绑定一个名字
    * addr,一个const struct sockaddr *指针,指向要绑定给sockfd的协议地址
    这个地址结构根据地址创建socket时的地址协议族的不同而不同
    * addrlen:对应的是地址的长度

    通常服务器在启动的时候都会绑定一个众所周知的地址(如ip地址+端口号),用于提供服务,客户就可以通过它来接连服务器.而客户端就不用指定,有系统自动分配一个端口号和自身的ip地址组合.这就是为什么通常服务器端在listen之前会调用bind(),而客户端就不会调用,而是在connect()时由系统随机生成一个

    * listen(),connect()函数
    如果作为一个服务器,在调用socket(),bind()之后就会调用listen()来监听这个socket
    如果客户端这时调用connect()发出连接请求,服务器端就会接收到这个请求

    int listen(int sockfd, int backlog);
    int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen);

    listen()函数的第一个参数即为要监听的socket描述字,第二个参数为相应socket可以排队的最大连接个数
    socket()函数创建的socket默认是一个主动类型的,listen函数将socket变为被动类型的,等待客户的连接请求

    connect()函数的第一个参数即为客户端的socket描述字,第二参数为服务器的socket地址,第三个参数为socket地址的长度.
    客户端通过调用connect函数来建立与TCP服务器的连接

    * accept()函数
    TCP服务器端依次调用socket(),bind(),listen()之后,就会监听指定的socket地址了
    TCP客户端依次调用socket(),connect()之后就向TCP服务器发送了一个连接请求,TCP服务器监听到这个请求之后,就会调用accept()函数取接收请求,这样就建立好了连接.之后就可以开始网络I/O操作了,即类同于普通文件的读写I/O操作

    int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);

    accept()函数的第一个参数为服务器的socket描述字,第二个参数为指向struct sockaddr *的指针,用于返回客户端的协议地址,第三个参数为协议地址的长度.如果accpet成功,那么其返回值是由内核自动生成的一个全新的描述字,代表与返回客户的TCP连接

    注意:
    accept的第一个参数为服务器的socket描述字,是服务器开始调用socket()函数生成的,称为监听socket描述字,而accept函数返回的是已连接的socket描述字.
    一个服务器通常通常仅仅只创建一个监听socket描述字,它在该服务器的生命周期内一直存在.内核为每个由服务器进程接受的客户连接创建了一个已连接socket描述字,当服务器完成了对某个客户的服务,相应的已连接socket描述字就被关闭.

    * read()、write()函数等
    建立好连接后,可以调用网络I/O进行读写操作了,即实现了网络中不同进程之间的通信.
    网络I/O操作有下面几组:
    * read()/write()
    * recv()/send()
    * readv()/writev()
    * recvmsg()/sendmsg()
    * recvfrom()/sendto()
    推荐使用"recvmsg()/sendmsg()"函数,这两个函数是最通用的I/O函数,实际上可以把上面的其它函数都替换成这两个函数

    read()函数是负责从fd中读取内容.当读成功时,read返回实际所读的字节数,如果返回的值是0表示已经读到文件的结束了,小于0表示出现了错误.如果错误为EINTR说明读是由中断引起的,如果是ECONNREST表示网络连接出了问题.
    write()函数将buf中的nbytes字节内容写入文件描述符fd.成功时返回写的字节数.失败时返回-1,并设置errno变量.在网络程序中,当我们向套接字文件描述符写时有俩种可能:一个是write的返回值大于0,表示写了部分或者是全部的数据;一个是返回的值小于0,此时出现了错误.我们要根据错误类型来处理.如果错误为EINTR表示在写的时候出现了中断错误;如果为EPIPE表示网络连接出现了问题(对方已经关闭了连接)

    * close()函数
    在服务器与客户端建立连接之后,会进行一些读写操作,完成了读写操作就要关闭相应的socket描述字,好比操作完打开的文件要调用fclose关闭打开的文件

    int close(int fd);
    close一个TCP socket的缺省行为时把该socket标记为以关闭,然后立即返回到调用进程.该描述字不能再由调用进程使用,也就是说不能再作为read或write的第一个参数.

    注意: close操作只是使相应socket描述字的引用计数减1,只有当引用计数为0的时候,才会触发TCP客户端向服务器发送终止连接请求
  3. TCP三次握手之Socket
    TCP三次握手之Socket

    1
    2
    3
    4
    5
    第一次,当客户端调用connect时,触发了连接请求,向服务器发送了"SYN=1,Seq=J"包,这时connect进入阻塞状态
    第二次,服务器监听到连接请求(即收到"SYN=1,Seq=J"包),调用accept函数接收请求并向客户端发送"ACK=1,ack=J+1 SYN=1,Seq=K",这时accept进入阻塞状态.
    第三次,客户端收到服务器的"ACK=1,ack=J+1 SYN=1,Seq=K"之后,这时connect返回,并对"SYN=1,Seq=K"进行确认.服务器收到"ACK=1,ack=K+1,Seq=J+1"时,accept返回.至此三次握手完毕,连接建立

    综上,客户端的connect在三次握手的第二个次返回,而服务器端的accept在三次握手的第三次返回
  4. TCP四次挥手之Socket
    TCP四次挥手之Socket

    1
    2
    3
    4
    5
    6
    第一次,某个应用进程首先调用close主动关闭连接,这时TCP发送一个"FIN=1 Seq=M",客户端进入FIN_WAIT_1
    第二次,服务端接收到"FIN=1 Seq=M"之后,执行被动关闭,并返回"ACK=1,ack=M+1 Seq=V"进行确认.它的接收也作为文件结束符传递给应用进程,因为FIN的接收意味着应用进程在相应的连接上再也接收不到额外数据.此时服务端进入CLOSE_WAIT
    第三次,一段时间之后,接收到文件结束符的应用进程调用close关闭它的socket.这导致它的TCP也发送一个"ACK=1,ack=M+1,FIN=1,Seq=K",此时服务端进入LAST_WAIT
    第四次,客户端接收到这个"ACK=1,ack=M+1,FIN=1,Seq=K"后,进入TIME_WAIT,同时发送一个确认包"ACK=1,ack=K+1,Seq=M+1"给服务端,服务端进入CLOSE状态,完成四次挥手.

    综上,客户端和服务端两边都会有一个FIN和ACK

TCP 协议详解

TCP 协议详解

  1. 为什么会有TCP/IP协议

    1
    2
    3
    4
    5
    6
    7
    在世界上各地,各种各样的电脑运行着各自不同的操作系统为人提供服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.计算机使用者意识到,计算机只是单兵作战并不会发挥太大的作用,只有把它们联合起来,电脑才会发挥出它最大的潜力.于是人们就想方设法的用电线把电脑连接到了一起.但简单的连到一起是远远不够的,就好像语言不同的两个人互相见了面,完全不能交流信息.因此他们需要定义一些共通的东西来进行交流,TCP/IP就是为此而生

    TCP/IP不是一个协议,而是一个协议族的统称.里面包含的协议:
    应用层: TFTP,HTTP,SNMP,FTP,SMTP,DNS,Telnet等等
    传输层: TCP,UDP
    网络层: IP,ICMP,OSPF,EIGRP,IGMP
    数据链路层: SLIP,CSLIP,PPP,MTU
  2. TCP/IP协议分层
    TCP/IP协议分层

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    TCP/IP协议族按照层次由上到下,层层包装:
    * 应用层
    向用户提供一组常用的应用程序,比如: 电子邮件,文件传输访问,远程登录等
    * 传输层
    提供应用程序间的通信.其功能包括:
    1.格式化信息流
    2.提供可靠传输
    为实现后者,传输层协议规定接收端必须发回确认,并且假如分组丢失,必须重新发送
    * 网络层
    负责相邻计算机之间的通信.其功能包括三方面:
    1.处理来自传输层的分组发送请求,收到请求后,将分组装入IP数据报,填充报头,选择去往信宿机的路径,然后将数据报发往适当的网络接口
    2.处理输入数据报,首先检查其合法性,然后进行寻径
    假如该数据报已到达信宿机,则去掉报头,将剩下部分交给适当的传输协议
    假如该数据报尚未到达信宿,则转发该数据报
    3.处理路径,流控,拥塞等问题
    * 网络接口层
    这是TCP/IP软件的最低层,负责接收IP数据报并通过网络发送之,或者从网络上接收物理帧,抽出IP数据报,交给IP层
  3. IP是无连接的

    1
    2
    3
    4
    5
    IP用于计算机之间的通信

    IP是无连接的通信协议.它不会占用两个正在通信的计算机之间的通信线路.这样,IP就降低了对网络线路的需求.每条线可以同时满足许多不同的计算机之间的通信需要.通过IP,消息(或者其他数据)被分割为小的独立的包,并通过因特网在计算机之间传送

    IP负责将每个包路由至它的目的地
  4. IP地址

    1
    2
    3
    4
    5
    6
    7
    8
    每个计算机必须有一个IP地址才能够连入因特网.每个IP包必须有一个地址才能够发送到另一台计算机

    网络上每一个节点都必须有一个独立的Internet地址(也叫做IP地址).现在,通常使用的IP地址是一个32bit的数字,也就是我们常说的IPv4标准,这32bit的数字分成四组,也就是常见的255.255.255.255的样式.IPv4标准上,地址被分为五类,我们常用的是B类地址.需要注意的是IP地址是"网络号+主机号"的组合,这非常重要

    TCP/IP使用32个比特来编址.一个计算机字节是8比特.所以TCP/IP使用了4个字节
    一个计算机字节可以包含256个不同的值:
    00000000,00000001,00000010,00000011,00000100......11111111
    现在,你知道了为什么TCP/IP地址是介于0到255之间的4个数字
  5. TCP 使用固定的连接

    1
    2
    3
    4
    5
    6
    7
    TCP用于应用程序之间的通信

    当应用程序希望通过TCP与另一个应用程序通信时,它会发送一个通信请求.这个请求必须被送到一个确切的地址.在双方"握手"之后,TCP将在两个应用程序之间建立一个全双工(full-duplex)的通信

    这个全双工的通信将占用两个计算机之间的通信线路,直到它被一方或双方关闭为止

    UDP和TCP很相似,但是更简单,同时可靠性低于TCP
  6. IP 路由器

    1
    2
    3
    当一个IP包从一台计算机被发送,它会到达一个IP路由器
    IP路由器负责将这个包路由至它的目的地,直接地或者通过其他的路由器.
    在一个相同的通信中,一个包所经由的路径可能会和其他的包不同.而路由器负责根据通信量,网络中的错误或者其他参数来进行正确地寻址
  7. 域名

    1
    2
    3
    4
    5
    12个阿拉伯数字很难记忆.使用一个名称更容易.
    用于TCP/IP地址的名字被称为域名.例如: www.baidu.com

    当你在浏览器输入"http://www.baidu.com",并按下回车键后,域名会被一种DNS程序翻译为IP地址
    在全世界,数量庞大的DNS服务器被连入因特网.DNS服务器负责将域名翻译为TCP/IP地址,同时负责使用新的域名信息更新彼此的系统.当一个新的域名连同其TCP/IP地址一同注册后,全世界的DNS服务器都会对此信息进行更新
  8. TCP/IP

    1
    2
    3
    TCP/IP 意味着TCP和IP在一起协同工作
    TCP负责应用软件和网络软件之间的通信;IP负责计算机之间的通信
    TCP负责将数据分割并装入IP包,然后在它们到达的时候重新组合它们;IP负责将包发送至接受者
  9. TCP报文格式
    TCP报文格式

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    * 16位源端口号 和 16位目标端口号
    16位的源端口占用2个字节(1个字节占用8位)
    端口是传输层与应用层的服务接口,传输层的复用和分用功能都需要通过端口才能实现

    * 32位序列号
    32位序列号占用四个字节
    TCP连接中传送的数据流中,当SYN出现,序列码实际上是初始序列码(Initial Sequence Number,ISN),而第一个数据字节是ISN+1.这个序列号(序列码)可用来补偿传输中的不一致

    * 32位确认序号
    32位确认序号占用四个字节
    32位的序列号是期望收到对方的下一个报文段的数据的第一个字节的序号,
    如果设置了ACK控制位,这个值表示一个准备接收的包的序列码

    * 4位数据偏移(首部长度)
    4位数据偏移(首部长度)占用1个字节
    4位包括TCP头大小,指示何处数据开始

    * 6位保留
    6位保留为了将来定义新的用途而保留,目前设置为0

    * 标志
    6位标志域:
    URG 紧急标志,当URG=1时,表明紧急指针字段有效.它告诉系统此报文段中有紧急数据,应尽快传送(相当于高优先级的数据)
    ACK 有意义的应答标志,只有当ACK=1时确认号字段才有效,当ACK=0时,确认号无效
    PSH 推,TCP接收到PSH=1的报文段,就尽快地交付接收应用进程,而不再等到整个缓存都填满了后再向上交付
    RST 重置连接标志,当RST=1时,表明TCP连接中出现严重差错,必须释放连接,然后再重新建立运输连接
    SYN 同步序列号标志,当SYN=1表示这是一个连接请求或连接接受报文
    FIN 完成发送数据标志,当FIN=1表明此报文段的发送端的数据已发送完毕,并要求释放连接

    * 16位窗口大小
    用来表示想收到的每个TCP数据段的大小.TCP的流量控制由连接的每一端通过声明的窗口大小来提供.窗口大小为字节数,起始于确认序号字段指明的值,这个值是接收端正期望接收的字节.窗口大小是一个16字节字段,因而窗口大小最大为65535字节

    * 16位校验和
    16位TCP头.源机器基于数据内容计算一个数值,收信息机要与源机器数值结果完全一样,从而证明数据的有效性.检验和覆盖了整个的TCP报文段:这是一个强制性的字段,一定是由发送端计算和存储,并由接收端进行验证的

    * 16位紧急指针
    指向后面是优先数据的字节,在URG标志设置了时才有效
    如果URG标志没有被设置,紧急域作为填充.加快处理标示为紧急的数据段

    * 选项
    长度不定,但长度必须为1个字节.如果没有选项就表示这个1字节的域等于0

    * 数据
    该TCP协议包负载的数据

    六位标志域的各个选项功能如下:
    URG: 紧急标志.紧急标志为"1"表明该位有效
    ACK: 确认标志.表明确认编号栏有效.大多数情况下该标志位是置位的.TCP报头内的确认编号栏内包含的确认编号(w+1)为下一个预期的序列编号,同时提示远端系统已经成功接收所有数据
    PSH: 推标志.该标志置位时,接收端不将该数据进行队列处理,而是尽可能快地将数据转由应用处理.在处理Telnet或rlogin等交互模式的连接时,该标志总是置位的
    RST: 复位标志.用于复位相应的TCP连接
    SYN: 同步标志.表明同步序列编号栏有效.该标志仅在三次握手建立TCP连接时有效.它提示TCP连接的服务端检查序列编号,该序列编号为TCP连接初始端的初始序列编号.在这里,可以把TCP序列编号看作是一个范围从0到4,294,967,295的32位计数器.通过TCP连接交换的数据中每一个字节都经过序列编号.在TCP报头中的序列编号栏包括了TCP分段中第一个字节的序列编号
    FIN: 结束标志
  10. TCP三次握手
    TCP三次握手

    1
    2
    3
    4
    5
    6
    第一次握手: Client将标志位SYN置为1,随机产生一个值seq=J,并将该数据包发送给Server,Client进入SYN_SENT状态,等待Server确认
    第二次握手: Server收到数据包后,由标志位SYN=1知道Client请求建立连接,Server将标志位ACK设置为1,ack设置为J+1,将标志位SYN设置为1,并随机产生一个值seq=K,Server将该数据包发送给Client以确认连接请求,Server进入SYN_RCVD状态
    第三次握手: Client收到确认后,检查ack是否为J+1,ACK是否为1.如果正确则将标志位ACK置为1,ack=K+1,并将该数据包发送给Server.Server检查ack是否为K+1,ACK是否为1,如果正确则连接建立成功.Client和Server进入ESTABLISHED状态,完成三次握手,随后Client与Server之间可以开始传输数据了

    SYN攻击:
    在三次握手过程中,Server发送SYN-ACK之后,收到Client的ACK之前的TCP连接称为半连接(half-open connect),此时Server处于SYN_RCVD状态,当收到ACK后,Server转入ESTABLISHED状态.SYN攻击就是Client在短时间内伪造大量不存在的IP地址,并向Server不断地发送SYN包,Server回复确认包,并等待Client的确认,由于源地址是不存在的,因此Server需要不断重发直至超时,这些伪造的SYN包将长时间占用未连接队列,导致正常的SYN请求因为队列满而被丢弃,从而引起网络堵塞甚至系统瘫痪.SYN攻击时一种典型的DDOS攻击,检测SYN攻击的方式非常简单,即当Server上有大量半连接状态且源IP地址是随机的,则可以断定遭到SYN攻击了,使用如下命令可以让之现行: netstat -nap | grep SYN_RECV
  11. TCP四次挥手
    TCP报文格式

    1
    2
    3
    4
    5
    6
    7
    8
    四次挥手(Four-Way Wavehand),即终止TCP连接,就是指断开一个TCP连接时,需要客户端和服务端总共发送4个包以确认连接的断开.在socket编程中,这一过程由客户端或服务端任一方执行close来触发.

    由于TCP连接时全双工的,因此每个方向都必须要单独进行关闭.这一原则是当一方完成数据发送任务后,发送一个FIN来终止这一方向的连接,收到一个FIN只是意味着这一方向上没有数据流动了,即不会再收到数据了.但是在这个TCP连接上仍然能够发送数据,直到这一方向也发送了FIN.首先进行关闭的一方将执行主动关闭,而另一方则执行被动关闭.

    第一次挥手: Client发送一个"FIN M",用来关闭Client到Server的数据传送,Client进入FIN_WAIT_1状态
    第二次挥手: Server收到"FIN M"后,发送一个"ACK=1,ack=M+1"给Client,确认序号为"M+1",Server进入CLOSE_WAIT状态,client进入FIN_WAIT_2状态
    第三次挥手: Server发送一个"FIN N",用来关闭Server到Client的数据传送,Server进入LAST_ACK状态
    第四次挥手: Client收到"FIN N"后,Client进入TIME_WAIT状态,接着发送一个"ACK=1,ack=N+1"给Server,确认序号为"N+1",Server进入CLOSED状态,完成四次挥手
  12. TCP 三次握手 和 四次挥手问题

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    问题一: 为什么建立连接是三次握手,而关闭连接却是四次挥手呢?
    解答:
    这是因为服务端在LISTEN状态下,收到建立连接请求的SYN报文后,把ACK和SYN放在一个报文里发送给客户端.而关闭连接时,当收到对方的FIN报文时,仅仅表示对方不再发送数据了但是还能接收数据,己方也未必全部数据都发送给对方了,所以己方可以立即close,也可以发送一些数据给对方后,再发送FIN报文给对方来表示同意现在关闭连接,因此,己方ACK和FIN一般都会分开发送

    问题二: 为什么TIME_WAIT状态需要经过2MSL(最大报文段生存时间)才能返回到CLOSE状态?
    解答:
    原因一: 保证TCP协议的全双工连接能够可靠关闭
    原因二: 保证这次连接的重复数据段从网络中消失

    先说原因一,如果Client直接CLOSED了,那么由于IP协议的不可靠性或者是其它网络原因,导致Server没有收到Client最后回复的ACK.那么Server就会在超时之后继续发送FIN,此时由于Client已经CLOSED了,就找不到与重发的FIN对应的连接,最后Server就会收到RST而不是ACK,Server就会以为是连接错误把问题报告给高层.这样的情况虽然不会造成数据丢失,但是却导致TCP协议不符合可靠连接的要求.所以,Client不是直接进入CLOSED,而是要保持TIME_WAIT,当再次收到FIN的时候,能够保证对方收到ACK,最后正确的关闭连接

    再说原因二,如果Client直接CLOSED,然后又再向Server发起一个新连接,我们不能保证这个新连接与刚关闭的连接的端口号是不同的.也就是说有可能新连接和老连接的端口号是相同的.一般来说不会发生什么问题,但是还是有特殊情况出现:假设新连接和已经关闭的老连接端口号是一样的,如果前一次连接的某些数据仍然滞留在网络中,这些延迟数据在建立新连接之后才到达Server,由于新连接和老连接的端口号是一样的,又因为TCP协议判断不同连接的依据是socket pair,于是,TCP协议就认为那个延迟的数据是属于新连接的,这样就和真正的新连接的数据包发生混淆了.所以TCP连接还要在TIME_WAIT状态等待2倍MSL,这样可以保证本次连接的所有数据都从网络中消失

linux 磁盘系统block区别

linux磁盘block和系统block区别

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
磁盘里面和文件系统里面都有一个叫"block size"的值,但它们的大小不一定一样.
磁盘里面一般都是512bytes;文件系统里面的不一定也是512bytes,一般是1024bytes

例如:
[root@dev ~]# fdisk -l /dev/vda
Disk /dev/vda: 21.5 GB, 21474836480 bytes, 41943040 sectors
Units = sectors of 1 * 512 = 512 bytes # 512 表示单个磁盘 block 是 512字节
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk label type: dos
Disk identifier: 0x0009d5a6

Device Boot Start End Blocks Id System
/dev/vda1 * 2048 1026047 512000 83 Linux
/dev/vda2 1026048 41943039 20458496 8e Linux LVM


[root@dev ~]# tune2fs -l /dev/vda1 |grep "Block size"
Block size: 1024