관리-도구

편집 파일: universaldetector.cpython-311.pyc

�

�����܋f�:�����������������������������d�Z�ddlZddlZddlZddlmZmZmZ�ddlm	Z	�ddl
mZ�ddlm
Z
mZmZ�ddlmZ�dd	lmZ�dd
lmZ�ddlmZ�ddlmZ�dd
lmZ�ddlmZ��G�d��d������������ZdS�)a��
Module containing the UniversalDetector detector class, which is the primary
class a user of ``chardet`` should use.

:author: Mark Pilgrim (initial port to Python)
:author: Shy Shalom (original C code)
:author: Dan Blanchard (major refactoring for 3.0)
:author: Ian Cordasco
�����N)�List�Optional�Union����)�CharSetGroupProber)�
CharSetProber)�
InputState�LanguageFilter�ProbingState)�EscCharSetProber)�Latin1Prober)�MacRomanProber)�MBCSGroupProber)�
ResultDict)�SBCSGroupProber)�
UTF1632Proberc������������	��������X����e�Zd�ZdZdZ�ej��������d������������Z�ej��������d������������Z�ej��������d������������Z	dddd	d
ddd
d�Z
dddddddd�Zej
��������dfdededdfd�Zedefd���������������Zedefd���������������Zedee���������fd���������������Zd!d�Zdeeef���������ddfd�Zdefd �ZdS�)"�UniversalDetectoraq��
    The ``UniversalDetector`` class underlies the ``chardet.detect`` function
    and coordinates all of the different charset probers.

To get a ``dict`` containing an encoding and its confidence, you can simply
    run:

.. code::

u = UniversalDetector()
            u.feed(some_bytes)
            u.close()
            detected = u.result

g�������?s���[�-�]s���(|~{)s���[�-�]zWindows-1252zWindows-1250zWindows-1251zWindows-1256zWindows-1253zWindows-1255zWindows-1254zWindows-1257)�
iso-8859-1z
iso-8859-2z
iso-8859-5z
iso-8859-6z
iso-8859-7z
iso-8859-8�
iso-8859-9ziso-8859-13zISO-8859-11�GB18030�CP949�UTF-16)�asciir���ztis-620r����gb2312zeuc-krzutf-16leF�lang_filter�should_rename_legacy�returnNc������������������ ����d�|�_���������d�|�_��������g�|�_��������d�dd�d�|�_��������d|�_��������d|�_��������t����������j��������|�_��������d|�_	��������||�_
��������t����������j��������t����������������������|�_��������d|�_��������||�_��������|�������������������������������������d�S�)N�����������encoding�
confidence�languageF�����)�_esc_charset_prober�_utf1632_prober�_charset_probers�result�done�	_got_datar	����
PURE_ASCII�_input_state�
_last_charr����logging�	getLogger�__name__�logger�_has_win_bytesr����reset)�selfr���r���s���   �P/opt/cloudlinux/venv/lib64/python3.11/site-packages/chardet/universaldetector.py�__init__zUniversalDetector.__init__d���s�������
�@D�� �8<���57������#
��#
���
���	����&�1������&����'��1�1���#���$8��!��
�
�����r%���c�����������������������|�j���������S��N)r-����r5���s��� r6����input_statezUniversalDetector.input_state{���s������� � r%���c�����������������������|�j���������S�r9���)r3���r:���s��� r6����
has_win_byteszUniversalDetector.has_win_bytes���s�������"�"r%���c�����������������������|�j���������S�r9���)r(���r:���s��� r6����charset_probersz!UniversalDetector.charset_probers����s�������$�$r%���c������������������2����dddd�|�_���������d|�_��������d|�_��������d|�_��������t����������j��������|�_��������d|�_��������|�j��������r|�j���������	�����������������������������������|�j
��������r|�j
���������	�����������������������������������|�j��������D�]}|�	������������������������������������dS�)z�
        Reset the UniversalDetector and all of its probers back to their
        initial states.  This is called by ``__init__``, so you only need to
        call this directly in between analyses of different documents.
        Nr ���r!���Fr%���)r)���r*���r+���r3���r	���r,���r-���r.���r&���r4���r'���r(���)r5����probers���  r6���r4���zUniversalDetector.reset����s��������$(�s��M�M�����	����#���&�1�������#��	-��$�*�*�,�,�,����	)�� �&�&�(�(�(��+��	��	�F��L�L�N�N�N�N�	��	r%����byte_strc������������������p����|�j���������rdS�|sdS�t����������|t����������������������st����������|������������}|�j��������s�|���������������������t
����������j��������������������rdddd�|�_��������n�|���������������������t
����������j��������t
����������j	��������f������������rdddd�|�_��������nx|���������������������d������������rdddd�|�_��������nW|���������������������d	������������rd
ddd�|�_��������n6|���������������������t
����������j
��������t
����������j��������f������������rdddd�|�_��������d|�_��������|�j��������d
����������	d|�_���������dS�|�j��������t����������j��������k����rt|�j�����������������������������|������������rt����������j��������|�_��������nH|�j��������t����������j��������k����r3|�j�����������������������������|�j��������|z���������������rt����������j��������|�_��������|dd����������|�_��������|�j��������st-������������������������|�_��������|�j��������j��������t0����������j��������k����r]|�j�����������������������������|������������t0����������j��������k����r5|�j��������j��������|�j�������������������������������������������dd�|�_��������d|�_���������dS�|�j��������t����������j��������k����r�|�j��������st?����������|�j ��������������������|�_��������|�j�����������������������������|������������t0����������j��������k����r?|�j��������j��������|�j�������������������������������������������|�j��������j!��������d�|�_��������d|�_���������dS�dS�|�j��������t����������j��������k�����r'|�j"��������s�tG����������|�j ��������������������g|�_"��������|�j ��������tH����������j%��������z��r&|�j"���������&��������������������tO�������������������������������������|�j"���������&��������������������tQ�������������������������������������|�j"���������&��������������������tS�������������������������������������|�j"��������D�]U}|���������������������|������������t0����������j��������k����r0|j��������|�����������������������������������|j!��������d�|�_��������d|�_����������n�V|�j*�����������������������������|������������rd|�_+��������dS�dS�dS�)a���
        Takes a chunk of a document and feeds it through all of the relevant
        charset probers.

After calling ``feed``, you can check the value of the ``done``
        attribute to see if you need to continue feeding the
        ``UniversalDetector`` more data, or if it has made a prediction
        (in the ``result`` attribute).

.. note::
           You should always call ``close`` when you're done feeding in your
           document if ``done`` is not already ``True``.
        Nz	UTF-8-SIG��������?��r!���zUTF-32s�������zX-ISO-10646-UCS-4-3412s�������zX-ISO-10646-UCS-4-2143r���Tr"������),r*����
isinstance�	bytearrayr+����
startswith�codecs�BOM_UTF8r)����BOM_UTF32_LE�BOM_UTF32_BE�BOM_LE�BOM_BEr-���r	���r,����HIGH_BYTE_DETECTOR�search�	HIGH_BYTE�ESC_DETECTORr.����	ESC_ASCIIr'���r����stater����	DETECTING�feed�FOUND_IT�charset_name�get_confidencer&���r���r���r$���r(���r���r
����NON_CJK�appendr���r
���r����WIN_BYTE_DETECTORr3���)r5���rB���rA���s���   r6���rW���zUniversalDetector.feed����s]�������9��	��F���	��F��(�I�.�.��	+� ��*�*�H���~��%	��"�"�6�?�3�3��
X��!,�"%� "�������
��$�$�f�&9�6�;N�%O�P�P��
X��,4�3�TV�W�W�����$�$�%8�9�9��
X��!9�"%� "�	��������$�$�%8�9�9��
X��!9�"%� "�	��������$�$�f�m�V�]�%C�D�D��
X��,4�3�TV�W�W���!�D�N��{�:�&�2� ��	������
� 5�5�5��&�-�-�h�7�7��
9�$.�$8��!�!��!�Z�%:�:�:��%�,�,�T�_�x�-G�H�H��;��%/�$8��!�"�2�3�3�-�����#��	3�#0�?�?�D� ���%��)?�?�?��#�(�(��2�2�l�6K�K�K� $� 4� A�"&�"6�"E�"E�"G�"G� "������
�!��	������
� 4�4�4��+��
N�+;�D�<L�+M�+M��(��'�,�,�X�6�6�,�:O�O�O� $� 8� E�"&�":�"I�"I�"K�"K� $� 8� A������
�!��	�	�	�
�P�O���
�*�"6�
6�
6��(��
?�)8��9I�)J�)J�(K��%��#�n�&<�<��D��)�0�0��1B�1B�C�C�C��%�,�,�\�^�^�<�<�<��%�,�,�^�-=�-=�>�>�>��/��
��
���;�;�x�(�(�L�,A�A�A�$*�$7�&,�&;�&;�&=�&=�$*�O�#��#�D�K�
�!%�D�I��E��B���%�,�,�X�6�6��
+�&*��#�#�#�%�7�
6�"
+��
+r%���c�����������	�����������|�j���������r|�j��������S�d|�_���������|�j��������s|�j�����������������������������d��������������n%|�j��������t����������j��������k����r
dddd�|�_���������n|�j��������t����������j��������k����r�d}d}d}|�j	��������D�]#}|s�|�
����������������������������������}||k����r|}|}�$|r�||�j��������k����r�|j��������}|�J��|�
����������������������������������}|�
����������������������������������}|���������������������d	������������r"|�j��������r|�j�����������������������������||������������}|�j��������r/|�j�����������������������������|pd�
����������������������������������|������������}|||j��������d�|�_��������|�j�������������������������������������������t,����������j��������k����r�|�j��������d
�����������|�j�����������������������������d�������������|�j	��������D�]�}|s�t1����������|t2����������������������rD|j��������D�];}|�j�����������������������������d|j��������|j��������|�
������������������������������������������������<�^|�j�����������������������������d|j��������|j��������|�
�������������������������������������������������|�j��������S�)
z�
        Stop analyzing the current document and come up with a final
        prediction.

:returns:  The ``result`` attribute, a ``dict`` with the keys
                   `encoding`, `confidence`, and `language`.
        Tzno data received!r���rD���rE���r!���Nr ���ziso-8859r"���z no probers hit minimum thresholdz%s %s confidence = %s)r*���r)���r+���r2����debugr-���r	���r,���rR���r(���rZ����MINIMUM_THRESHOLDrY����lowerrI���r3����ISO_WIN_MAP�getr����
LEGACY_MAPr$����getEffectiveLevelr/����DEBUGrG���r����probers)	r5����prober_confidence�max_prober_confidence�
max_proberrA���rY����lower_charset_namer#����group_probers	���         r6����closezUniversalDetector.close��s��������9��	��;����	��~��(	��K���1�2�2�2�2���
�*�"7�
7�
7�'.�c�r�R�R�D�K�K���
�*�"6�
6�
6� $��$'�!��J��/��
(��
(������$*�$9�$9�$;�$;�!�$�'<�<�<�,=�)�!'�J����
�4�t�7M�M�M�)�6��#�/�/�/�%1�%7�%7�%9�%9�"�'�6�6�8�8�
��&�0�0��<�<����*���'+�'7�';�';�.��(��(����,���#'�?�#6�#6�%�+��2�2�4�4�l�$��$�L��!-�",� *� 3��������;�(�(�*�*�g�m�;�;��{�:�&�.���!�!�"D�E�E�E�$(�$9�����L�'��!� �!�,�0B�C�C���&2�&:�����F� �K�-�-� 7� &� 3� &�� &� 5� 5� 7� 7�	�����������)�)�3�(�5�(�1�(�7�7�9�9�	���������{�r%���)r���N)r1����
__module__�__qualname__�__doc__r`����re�compilerP���rS���r]���rb���rd���r
����ALL�boolr7����property�intr;���r=���r���r���r?���r4���r����bytesrH���rW���r���rm�����r%���r6���r���r���8���s����������������� ���#���N�3�3���2�:�l�+�+�L�"��
�>�2�2��$�$�$�$�$�$�$�%�	��	�K�� �$� �$�������J��'5�&8�%*����#���#���
�	�������.��!�S��!��!��!���X�!���#�t��#��#��#���X�#���%��m�!4��%��%��%���X�%��������&A+�U�5�)�#3�4��A+���A+��A+��A+��A+�FM�z��M��M��M��M��M��Mr%���r���)rp���rJ���r/���rq����typingr���r���r����charsetgroupproberr����
charsetproberr����enumsr	���r
���r����	escproberr����latin1proberr
����macromanproberr����mbcsgroupproberr����
resultdictr����sbcsgroupproberr����
utf1632proberr���r���rx���r%���r6����<module>r�������sF����8�����
�
�
�������	�	�	�	��(��(��(��(��(��(��(��(��(��(��2��2��2��2��2��2��(��(��(��(��(��(��;��;��;��;��;��;��;��;��;��;��'��'��'��'��'��'��&��&��&��&��&��&��*��*��*��*��*��*��,��,��,��,��,��,��"��"��"��"��"��"��,��,��,��,��,��,��(��(��(��(��(��(�r��r��r��r��r��r��r��r��r��rr%���