您的位置:寻梦网首页编程乐园HTML园地HTML 4.0 参考文献

前页 | 后页 | 目录 | 元素 | 特性

SGML 声明

文档字符订

从 SGML 角 度 来 看 HTML 4.0 文 档 字 符 集 是 [ISO10646] 的 世 界 字 符 集 (Universal Character Set, UCS). 目 前, 它 完 全 逐 字 等 价 于 [UNICODE] 标 准.

数据转换

当 HTML 文 本 用 UCS-2 (charset="UNICODE-1-1") 直 接 传 送 的 时 候, 你 必 定 会 关 心 它 的 位 元 次 序: 对 于 双 位 元 字 符, 高 位 元 是 先 送 还 是 后 送? 这 份 说 明 书 建 议 UCS-2 以 big-endian 位 元 次 序 (先 传 送 高 位 元) 传 输, 它 同 时 符 合 确 认 网 络 位 元 传 送 规 则 以 及?UNICODE ([UNICODE]) 建 议 的 系 列 文 本 数 据 传 送 方 式. 而 且, 为 了 最 大 化 正 确 解 译 的 机 会, 建 议 以 UCS-2 传 送 文 本 时 以 ZERO-WIDTH NON-BREAKING SPACE 字 符 (16 进 制 FEFF)?开 始, 它 在 位 元 反 转 时 成 为 FFFE, 这 个 一 个 可 以 保 证 不 会 被 分 配 的 字 符. 因 此, 用 户 代 理 器 收 到?一 个 FFFE 作 为 文 本 的 第 一 个 文?本 的 8 位 元 时 可 以 知 道 位 元 已 经 从 剩 余 的 文 本 反 转.

?A HREF="http://www.see.online.sh.cn/CH/Tur/html40/sgml/references.html#ref-ISO10646>[ISO10646] 的 UTF-1 (由 IANA 作 为 ISO-10646-UTF-1 注 册) 变 形 格 式, 将 不 被 使 用.

SGML 声明

牋 <!SGML?"ISO 8879:1986"
牋 --
   ?SGML Declaration for HyperText Markup Language version 4.0

   ?With support for Unicode UCS-4 and increased limits
   ?for tag and literal lengths etc.
牋 --

牋 CHARSET
    牋?BASESET?"ISO Registration Number 177//CHARSET
        牋牋?ISO/IEC 10646-1:1993 UCS-4 with
        牋牋?implementation level 3//ESC 2/5 2/15 4/6"
    牋?DESCSET?0牋 9牋牋 UNUSED
        牋牋 9牋 2牋牋 9
        牋牋 11?2牋牋 UNUSED
        牋牋 13?1牋牋 13
        牋牋 14?18牋?UNUSED
        牋牋 32?95牋?32
        牋牋 127 1牋牋 UNUSED
        牋牋 128 32牋?UNUSED
        牋牋 160 2147483486 160
牋 --
    In ISO 10646, the positions with hexadecimal
    values 0000D800 - 0000DFFF, used in the UTF-16
    encoding of UCS-4, are reserved, as well as the last
    two code values in each plane of UCS-4, i.e. all
    values of the hexadecimal form xxxxFFFE or xxxxFFFF.
    These code values or the corresponding numeric
    character references must not be included when
    generating a new HTML document, and they should be
    ignored if encountered when processing a HTML
    document.
牋 --

牋 CAPACITY   ?SGMLREF
        牋 TOTALCAP   ?150000
        牋 GRPCAP    ?150000
    牋牋 ENTCAP     150000

牋 SCOPE牋?DOCUMENT
牋 SYNTAX
    牋?SHUNCHAR CONTROLS 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
    牋牋?17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 127
    牋?BASESET?"ISO 646IRV:1991//CHARSET
        牋牋?International Reference Version
        牋牋?(IRV)//ESC 2/8 4/2"
    牋?DESCSET?0 128 0

    牋?FUNCTION
        牋牋 RE    牋?13
        牋牋 RS    牋?10
        牋牋 SPACE     32
        牋牋 TAB SEPCHAR牋?9

    牋?NAMING牋 LCNMSTRT ""
        牋牋 UCNMSTRT ""
        牋牋 LCNMCHAR ".-"?-- ?include "~/_" for URLs? --
        牋牋 UCNMCHAR ".-"
        牋牋 NAMECASE GENERAL YES
            牋牋?ENTITY?NO
    牋?DELIM牋?GENERAL?SGMLREF
        牋牋 SHORTREF SGMLREF
    牋?NAMES牋?SGMLREF
    牋?QUANTITY SGMLREF
        牋牋 ATTSPLEN 65536牋 -- These are the largest values --
        牋牋 LITLEN牋 65536牋 -- permitted in the declaration --
        牋牋 NAMELEN?65536牋 -- Avoid fixed limits in actual --
        牋牋 PILEN牋?65536牋 -- implementations of HTML UA's --
        牋牋 TAGLVL牋 100
        牋牋 TAGLEN牋 65536
        牋牋 GRPGTCNT 150
        牋牋 GRPCNT牋 64

牋 FEATURES
牋牋 MINIMIZE
    DATATAG?NO
    OMITTAG?YES
    RANK牋牋 NO
    SHORTTAG YES
牋牋 LINK
    SIMPLE牋 NO
    IMPLICIT NO
    EXPLICIT NO
牋牋 OTHER
    CONCUR牋 NO
    SUBDOC牋 NO
    FORMAL牋 YES
牋 >