利用Beautiful Soup 解析网页

网页构成

<html>
	<head>
		<title>网页抓取</title>
	</head>
<body>
	<div id="left" class="left">
	<p id="left_p" align="center">
		左DIV的内容<b>one</b>.
	</p>
	</div>
	<div id="right" class="right">
	<p id="right_p" align="left">
		<a href="/I/am/a/link">URL</a>
	</p>
	</div>
	
	<div>
	<table>
	<tr>
		<th>ID</th>
		<th>ESC</th>
		<th>MEF</th>
		<th>NSC</th>
	</tr>
	</table>
	</div>
</body>
</html>

The key benefit of Docker is that it allows users to package an application with all of its dependencies into a standardized unit for software development.

提供一个虚拟的操作平台，供我们安装依赖不同版本系统的工具软件。
提供一个即时可用的应用软件或者流程的镜像，开发者把软件部署到系统镜像中，使用者可以直接下载下来使用，省去了个人安装软件的烦恼。
提供一个系统资源分配手段，给不同用户的程序分配独立的计算资源。

Docker的几个基本概念

镜像 (Images): 可以认为是超级轻量级的虚拟机的快照。镜像会有自己的唯一ID，名字和标签，比如ubuntu:latest, django:1.6等。通常都是在已有的镜像（多数是Linux操作系统的镜像）的基础上构建自己的具有新功能的镜像。
容器 (Containers): 可以认为是超级轻量级的虚拟机，是镜像运行起来所处的可读写的状态。容器里面可以安装、运行程序，还可以把安装好的程序存储起来获得新的镜像。

与虚拟机很大的不同在于，一个容器通常只运行一个程序。在Docker中，应用程序和数据文件是分开的，因此可以在不影响数据的情况下快速升级代码或系统。
数据卷 (Volumes): 永久保存数据的磁盘空间。 Docker允许用户定义哪一部分是应用程序，哪一步分是数据，并且把他们分隔开。这就保证了在Docker中容器的生命周期是短暂的，而数据的存储是永恒的。

数据卷存储在运行Docker的宿主机上，对每个容器来说是特有的。我们可以启动同一个镜像来产生多个容器，并且分别给他们分配一个数据卷。

数据卷也可用于在不同的容器间共享数据。具体参见http://blog.genesino.com//2016/09/docker-lamp/
联通 (Links): 容器启动后会分配有一个私有IP，其它容器可以通过这个IP地址与这个容器通讯。

假如有个正在运行的数据库容器 (dbapp)，那么我们可以在网络服务器容器 (webserver)中通过指定端口连接dbapp与数据库容器通讯。

安装和配置

Centos 6.5 安装Docker

#添加epel的源
su -c 'rpm -Uvh  http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm'
yum update

# 安装Docker
yum install docker-io

# 启动Docker服务
service docker start
# 关闭Docker服务
service docker stop

# 设置Docker开机启动
/sbin/chkconfig --add docker
/sbin/chkconfig docker on

其他新版操作系统的安装可以直接使用系统自带的yum或apt工具，启动和配置如上。
```
apt-get install docker.io
```

Docker用户权限

默认情况下，Docker命令的运行需要根用户权限。一个解决办法是把用户加入 docker用户组，原因是Docker能够将/run/docker.socket的文件权限设为 660、用户组设为docker。当把用户加入到docker用户组后，就无需使用 sudo或su命令切换获取根用户权限。check here

###以下操作都是在根用户下进行的

###增加一个用户组docker
# groupadd docker
###把用户${USER}加入docker用户组
# usermod -aG docker ${USER}
###重启docker服务(可不执行)
# service docker restart
###新窗口登录${USER}

但通常只应把信任的用户加入docker用户组因为docker用户组的权限相当于root。

如果打算只允许用户访问一个特定的容器，可以写一个简单脚本

# cat /bin/docker_container1
#!/bin/sh
docker run -ti --rm container_name /bin/sh

脚本完成后，配置sudoers

# grep username /etc/sudoers
username   ALL=(ALL)  NOPASSWD: /bin/docker_container1

更多权限设置见http://dockone.io/article/589

Docker试用

查看本地Docker的信息 docker info
运行Docker需要有一个镜像和容器。镜像是容器的只读版本，最基础的镜像是一个操作系统，是运行其他命令的基础。因此我们需要先获取一个操作系统镜像，通常使用Ubuntu系统, CentOS系统和 Alpine (只有5M)。我们也可以根据所要运行软件的需要，来获取不同的操作系统，方便软件的安装。

搜索镜像 docker search ubuntu; 镜像的名字通常由用户名/镜像名构成, 无用户名的为官方认证镜像。

root@server:~# docker search ubuntu
NAME              DESCRIPTION      STARS     OFFICIAL   AUTOMATED
ubuntu            Ubuntu is ...    4595      [OK]       
ubuntu-upstart    Upstart is...     66       [OK]
jordi/ubuntu      Ubuntu bas...     1                    [OK] 

获取镜像
- docker pull ubuntu 获取镜像的最新版本(不指定版本号即为latest)
- docker pull ubuntu:14.04 获取指定版本的镜像；14.04为镜像的版本号(又称TAG)。

查看本机Docker中存在的镜像 docker images

REPOSITORY   TAG      IMAGE ID       CREATED      VIRTUAL SIZE
ubuntu       latest   37b164bb431e   4 days ago   126.6 MB

获得了镜像之后，我们需要运行镜像；运行起来的镜像就是容器，是可读写的。我们可以在容器中安装软件、运行命令，就如在正常的操作系统中一样。

在容器中运行单个命令或程序, 通常加--rm参数，容器运行结束之后就自动删除。如果我们想保留容器的修改，则不能加--rm参数。
```
docker run --rm ubuntu echo "Hello from docker"
Hello from docker
```
交互式运行容器 docker run -it ubuntu, 这时可以发现终端的用户名变了
```
root@server:~# docker run -it ubuntu
root@57cb695e904f:/# ls
bin   dev  home  lib64  mnt  proc  run   srv  tmp  var
boot  etc  lib   media  opt  root  sbin  sys  usr
root@57cb695e904f:/# 
```
docker run --help可以查看这个命令的参数。
在容器中部署软件，安装build-essential和r-base; build-essential 是编译软件包的基础，提供需要的编译器、头文件和库文件。 r-base 是编译R语言程序包的基础。
```
apt-get update
#apt-get install -y build-essential r-base
apt-get install toliet
```
这一步我们可以安装任意的软件，测试时可以选择小一点的软件包。最开始时选择了安装build-essential, 只是为了学习，到后来发现安装这个并没有什么用，也不方便测试。为了简单起见，可以尝试安装Apache。在本文后面有个简单的测试Apache安装的例子。
测试运行新的镜像 docker run --rm -it username/ubuntu-dev:v1。
挂载宿主机硬盘在容器内部操作, 通过-v参数，路径都为绝对路径， docker run --rm -v /host_absolute_dir:/container_absolute_dir username/ubuntu-dev:v1 echo 'test' >/container_absolute_dir/test_file 这样，就相当于把host机目录/host_absolute_dir链接为docker容器路径 /container_absolute_dir。
如果只是自己用，到现在就可以结束了，我们可以在镜像里面继续更多的操作了。
另外我们还可以运用导出和导入来迁移镜像
- 导出镜像：docker export image_id >ubuntu-dev.v1.tar
- 导入镜像：cat ubuntu-dev.v1.tar | docker import - username/ubuntu-dev:v1
如果我们想把镜像分发给别人使用，就需要把镜像传到镜像仓库比如Docker Hub。我们需要现在Docker hub注册，用注册的用户名替换掉前文提到的username。
注册成功之后，在本地服务器尝试登录，用以把登录信息存储在本地，方便后续使用。运行docker login，按提示输入用户名、密码和邮件。登录成功会返回 Login Succeeded.
运行docker push username/ubuntu-dev:v1把准备好的镜像上传；等待片刻，完成上传。这时就可以再Docker hub上看到上传的镜像了。
其它用户可以使用 docker pull username/ubuntu-dev:v1来获取安装好编译环境的ubuntu系统了。

Docker系统基本操作

当一个容器不再使用时，运行docker rm container_id移除容器，以节省空间。这不会对镜像造成影响。
当一个容器不再使用时，运行docker rm -v container_id移除容器及其挂载卷，以节省空间。这不会对镜像造成影响。
批量删除退出的容器docker rm -v $(docker ps -a -q -f status=exited)。
对于只需要单次运行的容器，比如执行一个命令等，则只需要在 docker run时添加--rm参数就好。这样容器运行结束后会自动删除。
运行docker rmi username/ubuntu-dev:v1移除镜像。
运行docker tag 26d99f722dca username/ubuntu-dev:v0修改镜像的名字。
运行docker run -d --name=container_name username/ubuntu-dev:v1 指定运行的container的名字。
运行docker run --rm -ti -v /host_abs_dir:/container_abs_dir:ro username/ubuntu-dev:v1挂载只读目录。
运行docker stop containde_id/container_name停止镜像。
运行docker rm $(docker ps -a -q)和docker rmi $(docker images -q)移除全部镜像。BE CAREFULL

查看Docker镜像的创建历史 docker history image_name

IMAGE          CREATED       CREATED BY SIZE                COMMENT
3d4f934accdb   7 months ago        /bin/sh -c #(nop) CMD ["/run.sh" ]               0 B                 
aa321fa8d23f   7 months ago        /bin/sh -c #(nop) EXPOSE  3306/tcp 80/tcp        0 B                 
6446fbfc507d   7 months ago        /bin/sh -c #(nop) VOLUME  [/etc/mysql /var/lib   0 B                 
44e98bdf2bbf   7 months ago        /bin/sh -c #(nop) ENV PHP_POST_MAX_SIZE=10M     0 B                 
bedff16caee9   7 months ago        /bin/sh -c #(nop) ENV  PHP_UPLOAD_MAX_FILESIZE   0 B                 
72b723ccc97f   7 months ago        /bin/sh -c mkdir -p /app && rm -fr /var/www/h   0 B

查看镜像的JSON文件 docker inspect image_name
Docker images的安装路径为 /var/lib/docker。
- /var/lib/docker/{driver-name} will contain the driver specific storage for contents of the images.
- /var/lib/docker/graph/<id> now only contains metadata about the image, in the json and layersize files.
查看Docker 容器启动和运行日志
```
docker logs --tail=all container_id
```

使用Dockerfile自动构建镜像

除了可以像上面那样一步步地获取镜像、修改容器、存储镜像、上传镜像等操作外，我们还可以使用Dockerfile自动实现上述操作。

典型的Dockerfile如下所示，

FROM alpine
MAINTAINER username username@internet.com
RUN apk add --no-cache apache2 apache2-utils
COPY public_html /var/www/html
EXPOSE 80 443
CMD ["rc-service apache2 start"]

FROM为除注释之外的第一条命令，用来声明镜像的基础系统。
MAINTAINER设置镜像维护人的信息。
RUN在容器内部运行shell命令。
COPY是把本地的bash配置文件拷贝到新维护的镜像中； COPY的文件的路径是相对于docker build的PATH，一般是当前路径；
CMD指定容易运行时默认执行的命令，如出现多个，只有最后一个会被运行。

运行命令docker build -t="username/httpd-alpine:v1" .就可以构建镜像了。最后的.表示Dockerfile在当前目录，也可指定其他目录。public_html必须与Dockerfile在同一目录。

Docker的特征

Docker will watch only one single process. If you need multiple processes, you need to add a monitor like Monit or Supervisor at the top-level to take care of the others. But this is not recommended.

Docker使用注意

避免安装不必要的软件包。
每个容器都只运行一个进程。
最小化层：每执行一个命令，都会产生一个层。

参考

入门级 http://blog.saymagic.cn/2015/06/01/learning-docker.html
入门级 https://www.dwhd.org/20151115_140935.html
入门级 http://www.cnblogs.com/kevinX/p/5458244.html
Start (english version) https://scotch.io/tutorials/getting-started-with-docker
Start (english version) https://prakhar.me/docker-curriculum/
Greate english version https://blog.talpor.com/2015/01/docker-beginners-tutorial/
Docker trick https://blog.docker.com/2014/06/why-you-dont-need-to-run-sshd-in-docker/
Docker root and non-root http://www.2cto.com/os/201508/432930.html

培训

招聘

Tips

Lists

Cat.

Tags

About

Home

利用Beautiful Soup 解析网页

July 13, 2016

利用Beautiful Soup 解析网页

网页构成

Docker的几个基本概念

安装和配置

Docker用户权限

Docker试用

Docker系统基本操作

使用Dockerfile自动构建镜像

Docker的特征

Docker使用注意

参考

CHENTONG

生信宝典文章集锦

生信宝典文章集锦

生信宝典文章集锦