xemacs-beta: src/unicode.c annotate

annotate src/unicode.c @ 4952:19a72041c5ed

Mule-izing, various fixes related to char * arguments -------------------- ChangeLog entries follow: -------------------- modules/ChangeLog addition: 2010-01-26 Ben Wing <ben@xemacs.org> * postgresql/postgresql.c: * postgresql/postgresql.c (CHECK_LIVE_CONNECTION): * postgresql/postgresql.c (print_pgresult): * postgresql/postgresql.c (Fpq_conn_defaults): * postgresql/postgresql.c (Fpq_connectdb): * postgresql/postgresql.c (Fpq_connect_start): * postgresql/postgresql.c (Fpq_result_status): * postgresql/postgresql.c (Fpq_res_status): Mule-ize large parts of it. 2010-01-26 Ben Wing <ben@xemacs.org> * ldap/eldap.c (print_ldap): * ldap/eldap.c (allocate_ldap): Use write_ascstring(). src/ChangeLog addition: 2010-01-26 Ben Wing <ben@xemacs.org> * alloc.c: * alloc.c (build_ascstring): * alloc.c (build_msg_cistring): * alloc.c (staticpro_1): * alloc.c (staticpro_name): * alloc.c (staticpro_nodump_1): * alloc.c (staticpro_nodump_name): * alloc.c (unstaticpro_nodump_1): * alloc.c (mcpro_1): * alloc.c (mcpro_name): * alloc.c (object_memory_usage_stats): * alloc.c (common_init_alloc_early): * alloc.c (init_alloc_once_early): * buffer.c (print_buffer): * buffer.c (vars_of_buffer): * buffer.c (common_init_complex_vars_of_buffer): * buffer.c (init_initial_directory): * bytecode.c (invalid_byte_code): * bytecode.c (print_compiled_function): * bytecode.c (mark_compiled_function): * chartab.c (print_table_entry): * chartab.c (print_char_table): * config.h.in: * console-gtk.c: * console-gtk.c (gtk_device_to_console_connection): * console-gtk.c (gtk_semi_canonicalize_console_connection): * console-gtk.c (gtk_canonicalize_console_connection): * console-gtk.c (gtk_semi_canonicalize_device_connection): * console-gtk.c (gtk_canonicalize_device_connection): * console-stream.c (stream_init_frame_1): * console-stream.c (vars_of_console_stream): * console-stream.c (init_console_stream): * console-x.c (x_semi_canonicalize_console_connection): * console-x.c (x_semi_canonicalize_device_connection): * console-x.c (x_canonicalize_device_connection): * console-x.h: * data.c (eq_with_ebola_notice): * data.c (Fsubr_interactive): * data.c (Fnumber_to_string): * data.c (digit_to_number): * device-gtk.c (gtk_init_device): * device-msw.c (print_devmode): * device-x.c (x_event_name): * dialog-msw.c (handle_directory_dialog_box): * dialog-msw.c (handle_file_dialog_box): * dialog-msw.c (vars_of_dialog_mswindows): * doc.c (weird_doc): * doc.c (Fsnarf_documentation): * doc.c (vars_of_doc): * dumper.c (pdump): * dynarr.c: * dynarr.c (Dynarr_realloc): * editfns.c (Fuser_real_login_name): * editfns.c (get_home_directory): * elhash.c (print_hash_table_data): * elhash.c (print_hash_table): * emacs.c (main_1): * emacs.c (vars_of_emacs): * emodules.c: * emodules.c (_emodules_list): * emodules.c (Fload_module): * emodules.c (Funload_module): * emodules.c (Flist_modules): * emodules.c (find_make_module): * emodules.c (attempt_module_delete): * emodules.c (emodules_load): * emodules.c (emodules_doc_subr): * emodules.c (emodules_doc_sym): * emodules.c (syms_of_module): * emodules.c (vars_of_module): * emodules.h: * eval.c (print_subr): * eval.c (signal_call_debugger): * eval.c (build_error_data): * eval.c (signal_error): * eval.c (maybe_signal_error): * eval.c (signal_continuable_error): * eval.c (maybe_signal_continuable_error): * eval.c (signal_error_2): * eval.c (maybe_signal_error_2): * eval.c (signal_continuable_error_2): * eval.c (maybe_signal_continuable_error_2): * eval.c (signal_ferror): * eval.c (maybe_signal_ferror): * eval.c (signal_continuable_ferror): * eval.c (maybe_signal_continuable_ferror): * eval.c (signal_ferror_with_frob): * eval.c (maybe_signal_ferror_with_frob): * eval.c (signal_continuable_ferror_with_frob): * eval.c (maybe_signal_continuable_ferror_with_frob): * eval.c (syntax_error): * eval.c (syntax_error_2): * eval.c (maybe_syntax_error): * eval.c (sferror): * eval.c (sferror_2): * eval.c (maybe_sferror): * eval.c (invalid_argument): * eval.c (invalid_argument_2): * eval.c (maybe_invalid_argument): * eval.c (invalid_constant): * eval.c (invalid_constant_2): * eval.c (maybe_invalid_constant): * eval.c (invalid_operation): * eval.c (invalid_operation_2): * eval.c (maybe_invalid_operation): * eval.c (invalid_change): * eval.c (invalid_change_2): * eval.c (maybe_invalid_change): * eval.c (invalid_state): * eval.c (invalid_state_2): * eval.c (maybe_invalid_state): * eval.c (wtaerror): * eval.c (stack_overflow): * eval.c (out_of_memory): * eval.c (print_multiple_value): * eval.c (issue_call_trapping_problems_warning): * eval.c (backtrace_specials): * eval.c (backtrace_unevalled_args): * eval.c (Fbacktrace): * eval.c (warn_when_safe): * event-Xt.c (modwarn): * event-Xt.c (modbarf): * event-Xt.c (check_modifier): * event-Xt.c (store_modifier): * event-Xt.c (emacs_Xt_format_magic_event): * event-Xt.c (describe_event): * event-gtk.c (dragndrop_data_received): * event-gtk.c (store_modifier): * event-gtk.c (gtk_reset_modifier_mapping): * event-msw.c (dde_eval_string): * event-msw.c (Fdde_alloc_advise_item): * event-msw.c (mswindows_dde_callback): * event-msw.c (FROB): * event-msw.c (emacs_mswindows_format_magic_event): * event-stream.c (external_debugging_print_event): * event-stream.c (execute_help_form): * event-stream.c (vars_of_event_stream): * events.c (print_event_1): * events.c (print_event): * events.c (event_equal): * extents.c (print_extent_1): * extents.c (print_extent): * extents.c (vars_of_extents): * faces.c (print_face): * faces.c (complex_vars_of_faces): * file-coding.c: * file-coding.c (print_coding_system): * file-coding.c (print_coding_system_in_print_method): * file-coding.c (default_query_method): * file-coding.c (find_coding_system): * file-coding.c (make_coding_system_1): * file-coding.c (chain_print): * file-coding.c (undecided_print): * file-coding.c (gzip_print): * file-coding.c (vars_of_file_coding): * file-coding.c (complex_vars_of_file_coding): * fileio.c: * fileio.c (report_file_type_error): * fileio.c (report_error_with_errno): * fileio.c (report_file_error): * fileio.c (barf_or_query_if_file_exists): * fileio.c (vars_of_fileio): * floatfns.c (matherr): * fns.c (print_bit_vector): * fns.c (Fmapconcat): * fns.c (add_suffix_to_symbol): * fns.c (add_prefix_to_symbol): * frame-gtk.c: * frame-gtk.c (Fgtk_window_id): * frame-x.c (def): * frame-x.c (x_cde_transfer_callback): * frame.c: * frame.c (Fmake_frame): * gc.c (show_gc_cursor_and_message): * gc.c (vars_of_gc): * glyphs-eimage.c (png_instantiate): * glyphs-eimage.c (tiff_instantiate): * glyphs-gtk.c (gtk_print_image_instance): * glyphs-msw.c (mswindows_print_image_instance): * glyphs-x.c (x_print_image_instance): * glyphs-x.c (update_widget_face): * glyphs.c (make_string_from_file): * glyphs.c (print_image_instance): * glyphs.c (signal_image_error): * glyphs.c (signal_image_error_2): * glyphs.c (signal_double_image_error): * glyphs.c (signal_double_image_error_2): * glyphs.c (xbm_mask_file_munging): * glyphs.c (pixmap_to_lisp_data): * glyphs.h: * gui.c (gui_item_display_flush_left): * hpplay.c (player_error_internal): * hpplay.c (myHandler): * intl-win32.c: * intl-win32.c (langcode_to_lang): * intl-win32.c (sublangcode_to_lang): * intl-win32.c (Fmswindows_get_locale_info): * intl-win32.c (lcid_to_locale_mule_or_no): * intl-win32.c (mswindows_multibyte_to_unicode_print): * intl-win32.c (complex_vars_of_intl_win32): * keymap.c: * keymap.c (print_keymap): * keymap.c (ensure_meta_prefix_char_keymapp): * keymap.c (Fkey_description): * keymap.c (Ftext_char_description): * lisp.h: * lisp.h (struct): * lisp.h (DECLARE_INLINE_HEADER): * lread.c (Fload_internal): * lread.c (locate_file): * lread.c (read_escape): * lread.c (read_raw_string): * lread.c (read1): * lread.c (read_list): * lread.c (read_compiled_function): * lread.c (init_lread): * lrecord.h: * marker.c (print_marker): * marker.c (marker_equal): * menubar-msw.c (displayable_menu_item): * menubar-x.c (command_builder_operate_menu_accelerator): * menubar.c (vars_of_menubar): * minibuf.c (reinit_complex_vars_of_minibuf): * minibuf.c (complex_vars_of_minibuf): * mule-charset.c (Fmake_charset): * mule-charset.c (complex_vars_of_mule_charset): * mule-coding.c (iso2022_print): * mule-coding.c (fixed_width_query): * number.c (bignum_print): * number.c (ratio_print): * number.c (bigfloat_print): * number.c (bigfloat_finalize): * objects-msw.c: * objects-msw.c (mswindows_color_to_string): * objects-msw.c (mswindows_color_list): * objects-tty.c: * objects-tty.c (tty_font_list): * objects-tty.c (tty_find_charset_font): * objects-xlike-inc.c (xft_find_charset_font): * objects-xlike-inc.c (endif): * print.c: * print.c (write_istring): * print.c (write_ascstring): * print.c (Fterpri): * print.c (Fprint): * print.c (print_error_message): * print.c (print_vector_internal): * print.c (print_cons): * print.c (print_string): * print.c (printing_unreadable_object): * print.c (print_internal): * print.c (print_float): * print.c (print_symbol): * process-nt.c (mswindows_report_winsock_error): * process-nt.c (nt_canonicalize_host_name): * process-unix.c (unix_canonicalize_host_name): * process.c (print_process): * process.c (report_process_error): * process.c (report_network_error): * process.c (make_process_internal): * process.c (Fstart_process_internal): * process.c (status_message): * process.c (putenv_internal): * process.c (vars_of_process): * process.h: * profile.c (vars_of_profile): * rangetab.c (print_range_table): * realpath.c (vars_of_realpath): * redisplay.c (vars_of_redisplay): * search.c (wordify): * search.c (Freplace_match): * sheap.c (sheap_adjust_h): * sound.c (report_sound_error): * sound.c (Fplay_sound_file): * specifier.c (print_specifier): * symbols.c (Fsubr_name): * symbols.c (do_symval_forwarding): * symbols.c (set_default_buffer_slot_variable): * symbols.c (set_default_console_slot_variable): * symbols.c (store_symval_forwarding): * symbols.c (default_value): * symbols.c (defsymbol_massage_name_1): * symbols.c (defsymbol_massage_name_nodump): * symbols.c (defsymbol_massage_name): * symbols.c (defsymbol_massage_multiword_predicate_nodump): * symbols.c (defsymbol_massage_multiword_predicate): * symbols.c (defsymbol_nodump): * symbols.c (defsymbol): * symbols.c (defkeyword): * symbols.c (defkeyword_massage_name): * symbols.c (check_module_subr): * symbols.c (deferror_1): * symbols.c (deferror): * symbols.c (deferror_massage_name): * symbols.c (deferror_massage_name_and_message): * symbols.c (defvar_magic): * symeval.h: * symeval.h (DEFVAR_SYMVAL_FWD): * sysdep.c: * sysdep.c (init_system_name): * sysdll.c: * sysdll.c (MAYBE_PREPEND_UNDERSCORE): * sysdll.c (dll_function): * sysdll.c (dll_variable): * sysdll.c (dll_error): * sysdll.c (dll_open): * sysdll.c (dll_close): * sysdll.c (image_for_address): * sysdll.c (my_find_image): * sysdll.c (search_linked_libs): * sysdll.h: * sysfile.h: * sysfile.h (DEFAULT_DIRECTORY_FALLBACK): * syswindows.h: * tests.c (DFC_CHECK_LENGTH): * tests.c (DFC_CHECK_CONTENT): * tests.c (Ftest_hash_tables): * text.c (vars_of_text): * text.h: * tooltalk.c (tt_opnum_string): * tooltalk.c (tt_message_arg_ival_string): * tooltalk.c (Ftooltalk_default_procid): * tooltalk.c (Ftooltalk_default_session): * tooltalk.c (init_tooltalk): * tooltalk.c (vars_of_tooltalk): * ui-gtk.c (Fdll_load): * ui-gtk.c (type_to_marshaller_type): * ui-gtk.c (Fgtk_import_function_internal): * ui-gtk.c (emacs_gtk_object_printer): * ui-gtk.c (emacs_gtk_boxed_printer): * unicode.c (unicode_to_ichar): * unicode.c (unicode_print): * unicode.c (unicode_query): * unicode.c (vars_of_unicode): * unicode.c (complex_vars_of_unicode): * win32.c: * win32.c (mswindows_report_process_error): * window.c (print_window): * xemacs.def.in.in: BASIC IDEA: Further fixing up uses of char * and CIbyte * to reflect their actual semantics; Mule-izing some code; redoing of the not-yet-working code to handle message translation. Clean up code to handle message-translation (not yet working). Create separate versions of build_msg_string() for working with Ibyte *, CIbyte *, and Ascbyte * arguments. Assert that Ascbyte * arguments are pure-ASCII. Make build_msg_string() be the same as build_msg_ascstring(). Create same three versions of GETTEXT() and DEFER_GETTEXT(). Also create build_defer_string() and variants for the equivalent of DEFER_GETTEXT() when building a string. Remove old CGETTEXT(). Clean up code where GETTEXT(), DEFER_GETTEXT(), build_msg_string(), etc. was being called and introduce some new calls to build_msg_string(), etc. Remove GETTEXT() from calls to weird_doc() -- we assume that the message snarfer knows about weird_doc(). Remove uses of DEFER_GETTEXT() from error messages in sysdep.c and instead use special comments /* @@@begin-snarf@@@ */ and /* @@@end-snarf@@@ */ that the message snarfer presumably knows about. Create build_ascstring() and use it in many instances in place of build_string(). The purpose of having Ascbyte * variants is to make the code more self-documenting in terms of what sort of semantics is expected for char * strings. In fact in the process of looking for uses of build_string(), much improperly Mule-ized was discovered. Mule-ize a lot of code as described in previous paragraph, e.g. in sysdep.c. Make the error functions take Ascbyte * strings and fix up a couple of places where non-pure-ASCII strings were being passed in (file-coding.c, mule-coding.c, unicode.c). (It's debatable whether we really need to make the error functions work this way. It helps catch places where code is written in a way that message translation won't work, but we may well never implement message translation.) Make staticpro() and friends take Ascbyte * strings instead of raw char * strings. Create a const_Ascbyte_ptr dynarr type to describe what's held by staticpro_names[] and friends, create pdump descriptions for const_Ascbyte_ptr dynarrs, and use them in place of specially-crafted staticpro descriptions. Mule-ize certain other functions (e.g. x_event_name) by correcting raw use of char * to Ascbyte *, Rawbyte * or another such type, and raw use of char[] buffers to another type (usually Ascbyte[]). Change many uses of write_c_string() to write_msg_string(), write_ascstring(), etc. Mule-ize emodules.c, emodules.h, sysdll.h. Fix some un-Mule-ized code in intl-win32.c. A comment in event-Xt.c and the limitations of the message snarfer (make-msgfile or whatever) is presumably incorrect -- it should be smart enough to handle function calls spread over more than one line. Clean up code in event-Xt.c that was written awkwardly for this reason. In config.h.in, instead of NEED_ERROR_CHECK_TYPES_INLINES, create a more general XEMACS_DEFS_NEEDS_INLINE_DECLS to indicate when inlined functions need to be declared in xemacs.defs.in.in, and make use of it in xemacs.defs.in.in. We need to do this because postgresql.c now calls qxestrdup(), which is an inline function. Make nconc2() and other such functions MODULE_API and put them in xemacs.defs.in.in since postgresql.c now uses them. Clean up indentation in lread.c and a few other places. In text.h, document ASSERT_ASCTEXT_ASCII() and ASSERT_ASCTEXT_ASCII_LEN(), group together the stand-in encodings and add some more for DLL symbols, function and variable names, etc.

author	Ben Wing <ben@xemacs.org>
date	Tue, 26 Jan 2010 23:22:30 -0600
parents	b3ea9c582280
children	304aebb79cd3

rev	line source
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1 /* Code to handle Unicode conversion.
4834 b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	2 Copyright (C) 2000, 2001, 2002, 2003, 2004, 2005, 2010 Ben Wing.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	4 This file is part of XEmacs.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	5
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	6 XEmacs is free software; you can redistribute it and/or modify it
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	7 under the terms of the GNU General Public License as published by the
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	8 Free Software Foundation; either version 2, or (at your option) any
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	9 later version.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	10
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	11 XEmacs is distributed in the hope that it will be useful, but WITHOUT
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	12 ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	13 FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	14 for more details.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	15
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	16 You should have received a copy of the GNU General Public License
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	17 along with XEmacs; see the file COPYING. If not, write to
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	18 the Free Software Foundation, Inc., 59 Temple Place - Suite 330,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	19 Boston, MA 02111-1307, USA. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	20
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	21 /* Synched up with: FSF 20.3. Not in FSF. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	22
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	23 /* Authorship:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	24
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	25 Current primary author: Ben Wing <ben@xemacs.org>
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	26
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	27 Written by Ben Wing <ben@xemacs.org>, June, 2001.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	28 Separated out into this file, August, 2001.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	29 Includes Unicode coding systems, some parts of which have been written
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	30 by someone else. #### Morioka and Hayashi, I think.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	31
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	32 As of September 2001, the detection code is here and abstraction of the
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	33 detection system is finished. The unicode detectors have been rewritten
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	34 to include multiple levels of likelihood.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	35 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	36
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	37 #include <config.h>
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	38 #include "lisp.h"
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	39
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	40 #include "charset.h"
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	41 #include "file-coding.h"
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	42 #include "opaque.h"
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	43
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	44 #include "buffer.h"
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	45 #include "rangetab.h"
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	46 #include "extents.h"
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	47
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	48 #include "sysfile.h"
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	49
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	50 /* For more info about how Unicode works under Windows, see intl-win32.c. */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	51
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	52 /* Info about Unicode translation tables [ben]:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	53
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	54 FORMAT:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	55 -------
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	56
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	57 We currently use the following format for tables:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	58
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	59 If dimension == 1, to_unicode_table is a 96-element array of ints
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	60 (Unicode code points); else, it's a 96-element array of int * pointers,
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	61 each of which points to a 96-element array of ints. If no elements in a
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	62 row have been filled in, the pointer will point to a default empty
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	63 table; that way, memory usage is more reasonable but lookup still fast.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	64
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	65 -- If from_unicode_levels == 1, from_unicode_table is a 256-element
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	66 array of shorts (octet 1 in high byte, octet 2 in low byte; we don't
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	67 store Ichars directly to save space).
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	68
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	69 -- If from_unicode_levels == 2, from_unicode_table is a 256-element
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	70 array of short * pointers, each of which points to a 256-element array
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	71 of shorts.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	72
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	73 -- If from_unicode_levels == 3, from_unicode_table is a 256-element
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	74 array of short ** pointers, each of which points to a 256-element array
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	75 of short * pointers, each of which points to a 256-element array of
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	76 shorts.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	77
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	78 -- If from_unicode_levels == 4, same thing but one level deeper.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	79
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	80 Just as for to_unicode_table, we use default tables to fill in all
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	81 entries with no values in them.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	82
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	83 #### An obvious space-saving optimization is to use variable-sized
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	84 tables, where each table instead of just being a 256-element array, is a
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	85 structure with a start value, an end value, and a variable number of
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	86 entries (END - START + 1). Only 8 bits are needed for END and START,
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	87 and could be stored at the end to avoid alignment problems. However,
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	88 before charging off and implementing this, we need to consider whether
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	89 it's worth it:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	90
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	91 (1) Most tables will be highly localized in which code points are
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	92 defined, heavily reducing the possible memory waste. Before doing any
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	93 rewriting, write some code to see how much memory is actually being
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	94 wasted (i.e. ratio of empty entries to total # of entries) and only
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	95 start rewriting if it's unacceptably high. You have to check over all
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	96 charsets.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	97
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	98 (2) Since entries are usually added one at a time, you have to be very
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	99 careful when creating the tables to avoid realloc()/free() thrashing in
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	100 the common case when you are in an area of high localization and are
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	101 going to end up using most entries in the table. You'd certainly want
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	102 to allow only certain sizes, not arbitrary ones (probably powers of 2,
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	103 where you want the entire block including the START/END values to fit
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	104 into a power of 2, minus any malloc overhead if there is any -- there's
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	105 none under gmalloc.c, and probably most system malloc() functions are
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	106 quite smart nowadays and also have no overhead). You could optimize
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	107 somewhat during the in-C initializations, because you can compute the
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	108 actual usage of various tables by scanning the entries you're going to
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	109 add in a separate pass before adding them. (You could actually do the
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	110 same thing when entries are added on the Lisp level by making the
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	111 assumption that all the entries will come in one after another before
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	112 any use is made of the data. So as they're coming in, you just store
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	113 them in a big long list, and the first time you need to retrieve an
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	114 entry, you compute the whole table at once.) You'd still have to deal
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	115 with the possibility of later entries coming in, though.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	116
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	117 (3) You do lose some speed using START/END values, since you need a
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	118 couple of comparisons at each level. This could easily make each single
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	119 lookup become 3-4 times slower. The Unicode book considers this a big
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	120 issue, and recommends against variable-sized tables for this reason;
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	121 however, they almost certainly have in mind applications that primarily
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	122 involve conversion of large amounts of data. Most Unicode strings that
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	123 are translated in XEmacs are fairly small. The only place where this
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	124 might matter is in loading large files -- e.g. a 3-megabyte
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	125 Unicode-encoded file. So think about this, and maybe do a trial
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	126 implementation where you don't worry too much about the intricacies of
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	127 (2) and just implement some basic "multiply by 1.5" trick or something
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	128 to do the resizing. There is a very good FAQ on Unicode called
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	129 something like the Linux-Unicode How-To (it should be part of the Linux
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	130 How-To's, I think), that lists the url of a guy with a whole bunch of
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	131 unicode files you can use to stress-test your implementations, and he's
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	132 highly likely to have a good multi-megabyte Unicode-encoded file (with
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	133 normal text in it -- if you created your own just by creating repeated
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	134 strings of letters and numbers, you probably wouldn't get accurate
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	135 results).
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	136
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	137 INITIALIZATION:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	138 ---------------
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	139
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	140 There are advantages and disadvantages to loading the tables at
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	141 run-time.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	142
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	143 Advantages:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	144
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	145 They're big, and it's very fast to recreate them (a fraction of a second
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	146 on modern processors).
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	147
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	148 Disadvantages:
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	149
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	150 (1) User-defined charsets: It would be inconvenient to require all
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	151 dumped user-defined charsets to be reloaded at init time.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	152
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	153 NB With run-time loading, we load in init-mule-at-startup, in
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	154 mule-cmds.el. This is called from startup.el, which is quite late in
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	155 the initialization process -- but data-directory isn't set until then.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	156 With dump-time loading, you still can't dump in a Japanese directory
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	157 (again, until we move to Unicode internally), but this is not such an
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	158 imposition.
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	159
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	160
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	161 */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	162
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	163 /* #### WARNING! The current sledgehammer routines have a fundamental
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	164 problem in that they can't handle two characters mapping to a
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	165 single Unicode codepoint or vice-versa in a single charset table.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	166 It's not clear there is any way to handle this and still make the
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	167 sledgehammer routines useful.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	168
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	169 Inquiring Minds Want To Know Dept: does the above WARNING mean that
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	170 _if_ it happens, then it will signal error, or then it will do
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	171 something evil and unpredictable? Signaling an error is OK: for
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	172 all national standards, the national to Unicode map is an inclusion
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	173 (1-to-1). Any character set that does not behave that way is
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	174 broken according to the Unicode standard.
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	175
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	176 Answer: You will get an ABORT(), since the purpose of the sledgehammer
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	177 routines is self-checking. The above problem with non-1-to-1 mapping
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	178 occurs in the Big5 tables, as provided by the Unicode Consortium. */
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	179
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	180 /* #define SLEDGEHAMMER_CHECK_UNICODE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	181
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	182 /* When MULE is not defined, we may still need some Unicode support --
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	183 in particular, some Windows API's always want Unicode, and the way
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	184 we've set up the Unicode encapsulation, we may as well go ahead and
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	185 always use the Unicode versions of split API's. (It would be
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	186 trickier to not use them, and pointless -- under NT, the ANSI API's
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	187 call the Unicode ones anyway, so in the case of structures, we'd be
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	188 converting from Unicode to ANSI structures, only to have the OS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	189 convert them back.) */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	190
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	191 Lisp_Object Qunicode;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	192 Lisp_Object Qutf_16, Qutf_8, Qucs_4, Qutf_7, Qutf_32;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	193 Lisp_Object Qneed_bom;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	194
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	195 Lisp_Object Qutf_16_little_endian, Qutf_16_bom;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	196 Lisp_Object Qutf_16_little_endian_bom;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	197
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	198 Lisp_Object Qutf_8_bom;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	199
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	200 #ifdef MULE
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	201 /* These range tables are not directly accessible from Lisp: */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	202 static Lisp_Object Vunicode_invalid_and_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	203 static Lisp_Object Vutf_8_invalid_and_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	204 static Lisp_Object Vunicode_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	205
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	206 static Lisp_Object Vunicode_query_string, Vunicode_invalid_string,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	207 Vutf_8_invalid_string;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	208 #endif /* MULE */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	209
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	210 /* See the Unicode FAQ, http://www.unicode.org/faq/utf_bom.html#35 for this
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	211 algorithm.
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	212
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	213 (They also give another, really verbose one, as part of their explanation
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	214 of the various planes of the encoding, but we won't use that.) */
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	215
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	216 #define UTF_16_LEAD_OFFSET (0xD800 - (0x10000 >> 10))
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	217 #define UTF_16_SURROGATE_OFFSET (0x10000 - (0xD800 << 10) - 0xDC00)
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	218
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	219 #define utf_16_surrogates_to_code(lead, trail) \
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	220 (((lead) << 10) + (trail) + UTF_16_SURROGATE_OFFSET)
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	221
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	222 #define CODE_TO_UTF_16_SURROGATES(codepoint, lead, trail) do { \
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	223 int __ctu16s_code = (codepoint); \
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	224 lead = UTF_16_LEAD_OFFSET + (__ctu16s_code >> 10); \
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	225 trail = 0xDC00 + (__ctu16s_code & 0x3FF); \
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	226 } while (0)
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	227
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	228 #ifdef MULE
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	229
3352 8dbdcd070418 [xemacs-hg @ 2006-04-22 15:18:54 by stephent] stephent parents: 3025 diff changeset	230 /* Using ints for to_unicode is OK (as long as they are >= 32 bits).
8dbdcd070418 [xemacs-hg @ 2006-04-22 15:18:54 by stephent] stephent parents: 3025 diff changeset	231 In from_unicode, we're converting from Mule characters, which means
8dbdcd070418 [xemacs-hg @ 2006-04-22 15:18:54 by stephent] stephent parents: 3025 diff changeset	232 that the values being converted to are only 96x96, and we can save
8dbdcd070418 [xemacs-hg @ 2006-04-22 15:18:54 by stephent] stephent parents: 3025 diff changeset	233 space by using shorts (signedness doesn't matter). */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	234 static int *to_unicode_blank_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	235 static int **to_unicode_blank_2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	236
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	237 static short *from_unicode_blank_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	238 static short **from_unicode_blank_2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	239 static short ***from_unicode_blank_3;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	240 static short ****from_unicode_blank_4;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	241
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	242 static const struct memory_description to_unicode_level_0_desc_1[] = {
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	243 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	244 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	245
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	246 static const struct sized_memory_description to_unicode_level_0_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	247 sizeof (int), to_unicode_level_0_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	248 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	249
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	250 static const struct memory_description to_unicode_level_1_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	251 { XD_BLOCK_PTR, 0, 96, { &to_unicode_level_0_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	252 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	253 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	254
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	255 static const struct sized_memory_description to_unicode_level_1_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	256 sizeof (void *), to_unicode_level_1_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	257 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	258
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	259 static const struct memory_description to_unicode_description_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	260 { XD_BLOCK_PTR, 1, 96, { &to_unicode_level_0_desc } },
9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	261 { XD_BLOCK_PTR, 2, 96, { &to_unicode_level_1_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	262 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	263 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	264
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	265 /* Not static because each charset has a set of to and from tables and
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	266 needs to describe them to pdump. */
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	267 const struct sized_memory_description to_unicode_description = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	268 sizeof (void *), to_unicode_description_1
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	269 };
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	270
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	271 /* Used only for to_unicode_blank_2 */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	272 static const struct memory_description to_unicode_level_2_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	273 { XD_BLOCK_PTR, 0, 96, { &to_unicode_level_1_desc } },
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	274 { XD_END }
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	275 };
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	276
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	277 static const struct memory_description from_unicode_level_0_desc_1[] = {
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	278 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	279 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	280
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	281 static const struct sized_memory_description from_unicode_level_0_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	282 sizeof (short), from_unicode_level_0_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	283 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	284
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	285 static const struct memory_description from_unicode_level_1_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	286 { XD_BLOCK_PTR, 0, 256, { &from_unicode_level_0_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	287 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	288 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	289
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	290 static const struct sized_memory_description from_unicode_level_1_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	291 sizeof (void *), from_unicode_level_1_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	292 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	293
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	294 static const struct memory_description from_unicode_level_2_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	295 { XD_BLOCK_PTR, 0, 256, { &from_unicode_level_1_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	296 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	297 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	298
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	299 static const struct sized_memory_description from_unicode_level_2_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	300 sizeof (void *), from_unicode_level_2_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	301 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	302
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	303 static const struct memory_description from_unicode_level_3_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	304 { XD_BLOCK_PTR, 0, 256, { &from_unicode_level_2_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	305 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	306 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	307
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	308 static const struct sized_memory_description from_unicode_level_3_desc = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	309 sizeof (void *), from_unicode_level_3_desc_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	310 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	311
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	312 static const struct memory_description from_unicode_description_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	313 { XD_BLOCK_PTR, 1, 256, { &from_unicode_level_0_desc } },
9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	314 { XD_BLOCK_PTR, 2, 256, { &from_unicode_level_1_desc } },
9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	315 { XD_BLOCK_PTR, 3, 256, { &from_unicode_level_2_desc } },
9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	316 { XD_BLOCK_PTR, 4, 256, { &from_unicode_level_3_desc } },
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	317 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	318 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	319
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	320 /* Not static because each charset has a set of to and from tables and
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	321 needs to describe them to pdump. */
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	322 const struct sized_memory_description from_unicode_description = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	323 sizeof (void *), from_unicode_description_1
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	324 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	325
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	326 /* Used only for from_unicode_blank_4 */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	327 static const struct memory_description from_unicode_level_4_desc_1[] = {
2551 9f70af3ac939 [xemacs-hg @ 2005-02-03 16:14:02 by james] james parents: 2500 diff changeset	328 { XD_BLOCK_PTR, 0, 256, { &from_unicode_level_3_desc } },
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	329 { XD_END }
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	330 };
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	331
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	332 static Lisp_Object_dynarr *unicode_precedence_dynarr;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	333
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	334 static const struct memory_description lod_description_1[] = {
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	335 XD_DYNARR_DESC (Lisp_Object_dynarr, &lisp_object_description),
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	336 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	337 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	338
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	339 static const struct sized_memory_description lisp_object_dynarr_description = {
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	340 sizeof (Lisp_Object_dynarr),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	341 lod_description_1
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	342 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	343
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	344 Lisp_Object Vlanguage_unicode_precedence_list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	345 Lisp_Object Vdefault_unicode_precedence_list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	346
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	347 Lisp_Object Qignore_first_column;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	348
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	349 Lisp_Object Vcurrent_jit_charset;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	350 Lisp_Object Qlast_allocated_character;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	351 Lisp_Object Qccl_encode_to_ucs_2;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	352
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	353 Lisp_Object Vnumber_of_jit_charsets;
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	354 Lisp_Object Vlast_jit_charset_final;
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	355 Lisp_Object Vcharset_descr;
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	356
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	357
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	358
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	359 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	360 /* Unicode implementation */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	361 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	362
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	363 #define BREAKUP_UNICODE_CODE(val, u1, u2, u3, u4, levels) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	364 do { \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	365 int buc_val = (val); \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	366 \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	367 (u1) = buc_val >> 24; \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	368 (u2) = (buc_val >> 16) & 255; \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	369 (u3) = (buc_val >> 8) & 255; \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	370 (u4) = buc_val & 255; \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	371 (levels) = (buc_val <= 0xFF ? 1 : \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	372 buc_val <= 0xFFFF ? 2 : \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	373 buc_val <= 0xFFFFFF ? 3 : \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	374 4); \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	375 } while (0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	376
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	377 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	378 init_blank_unicode_tables (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	379 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	380 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	381
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	382 from_unicode_blank_1 = xnew_array (short, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	383 from_unicode_blank_2 = xnew_array (short *, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	384 from_unicode_blank_3 = xnew_array (short **, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	385 from_unicode_blank_4 = xnew_array (short ***, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	386 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	387 {
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	388 /* #### IMWTK: Why does using -1 here work? Simply because there are
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	389 no existing 96x96 charsets?
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	390
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	391 Answer: I don't understand the concern. -1 indicates there is no
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	392 entry for this particular codepoint, which is always the case for
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	393 blank tables. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	394 from_unicode_blank_1[i] = (short) -1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	395 from_unicode_blank_2[i] = from_unicode_blank_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	396 from_unicode_blank_3[i] = from_unicode_blank_2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	397 from_unicode_blank_4[i] = from_unicode_blank_3;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	398 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	399
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	400 to_unicode_blank_1 = xnew_array (int, 96);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	401 to_unicode_blank_2 = xnew_array (int *, 96);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	402 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	403 {
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	404 /* Here -1 is guaranteed OK. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	405 to_unicode_blank_1[i] = -1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	406 to_unicode_blank_2[i] = to_unicode_blank_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	407 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	408 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	409
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	410 static void *
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	411 create_new_from_unicode_table (int level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	412 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	413 switch (level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	414 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	415 /* WARNING: If you are thinking of compressing these, keep in
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	416 mind that sizeof (short) does not equal sizeof (short ). /
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	417 case 1:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	418 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	419 short *newtab = xnew_array (short, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	420 memcpy (newtab, from_unicode_blank_1, 256 * sizeof (short));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	421 return newtab;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	422 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	423 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	424 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	425 short *newtab = xnew_array (short , 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	426 memcpy (newtab, from_unicode_blank_2, 256 * sizeof (short *));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	427 return newtab;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	428 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	429 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	430 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	431 short *newtab = xnew_array (short , 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	432 memcpy (newtab, from_unicode_blank_3, 256 * sizeof (short **));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	433 return newtab;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	434 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	435 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	436 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	437 short **newtab = xnew_array (short *, 256);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	438 memcpy (newtab, from_unicode_blank_4, 256 * sizeof (short ***));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	439 return newtab;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	440 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	441 default:
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	442 ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	443 return 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	444 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	445 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	446
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	447 /* Allocate and blank the tables.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	448 Loading them up is done by load-unicode-mapping-table. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	449 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	450 init_charset_unicode_tables (Lisp_Object charset)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	451 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	452 if (XCHARSET_DIMENSION (charset) == 1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	453 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	454 int *to_table = xnew_array (int, 96);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	455 memcpy (to_table, to_unicode_blank_1, 96 * sizeof (int));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	456 XCHARSET_TO_UNICODE_TABLE (charset) = to_table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	457 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	458 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	459 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	460 int *to_table = xnew_array (int , 96);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	461 memcpy (to_table, to_unicode_blank_2, 96 * sizeof (int *));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	462 XCHARSET_TO_UNICODE_TABLE (charset) = to_table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	463 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	464
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	465 {
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	466 XCHARSET_FROM_UNICODE_TABLE (charset) =
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	467 create_new_from_unicode_table (1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	468 XCHARSET_FROM_UNICODE_LEVELS (charset) = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	469 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	470 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	471
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	472 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	473 free_from_unicode_table (void *table, int level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	474 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	475 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	476
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	477 switch (level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	478 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	479 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	480 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	481 short tab = (short ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	482 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	483 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	484 if (tab[i] != from_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	485 free_from_unicode_table (tab[i], 1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	486 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	487 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	488 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	489 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	490 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	491 short *tab = (short *) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	492 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	493 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	494 if (tab[i] != from_unicode_blank_2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	495 free_from_unicode_table (tab[i], 2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	496 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	497 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	498 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	499 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	500 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	501 short **tab = (short **) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	502 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	503 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	504 if (tab[i] != from_unicode_blank_3)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	505 free_from_unicode_table (tab[i], 3);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	506 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	507 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	508 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	509 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	510
1726 a8d8f419b459 [xemacs-hg @ 2003-09-30 15:26:34 by james] james parents: 1429 diff changeset	511 xfree (table, void *);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	512 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	513
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	514 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	515 free_to_unicode_table (void *table, int level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	516 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	517 if (level == 2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	518 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	519 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	520 int tab = (int ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	521
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	522 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	523 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	524 if (tab[i] != to_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	525 free_to_unicode_table (tab[i], 1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	526 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	527 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	528
1726 a8d8f419b459 [xemacs-hg @ 2003-09-30 15:26:34 by james] james parents: 1429 diff changeset	529 xfree (table, void *);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	530 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	531
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	532 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	533 free_charset_unicode_tables (Lisp_Object charset)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	534 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	535 free_to_unicode_table (XCHARSET_TO_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	536 XCHARSET_DIMENSION (charset));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	537 free_from_unicode_table (XCHARSET_FROM_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	538 XCHARSET_FROM_UNICODE_LEVELS (charset));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	539 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	540
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	541 #ifdef MEMORY_USAGE_STATS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	542
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	543 static Bytecount
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	544 compute_from_unicode_table_size_1 (void *table, int level,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	545 struct overhead_stats *stats)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	546 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	547 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	548 Bytecount size = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	549
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	550 switch (level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	551 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	552 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	553 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	554 short tab = (short ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	555 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	556 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	557 if (tab[i] != from_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	558 size += compute_from_unicode_table_size_1 (tab[i], 1, stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	559 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	560 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	561 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	562 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	563 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	564 short *tab = (short *) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	565 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	566 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	567 if (tab[i] != from_unicode_blank_2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	568 size += compute_from_unicode_table_size_1 (tab[i], 2, stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	569 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	570 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	571 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	572 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	573 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	574 short **tab = (short **) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	575 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	576 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	577 if (tab[i] != from_unicode_blank_3)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	578 size += compute_from_unicode_table_size_1 (tab[i], 3, stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	579 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	580 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	581 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	582 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	583
3024 b7f26b2f78bd [xemacs-hg @ 2005-10-25 08:32:40 by ben] ben parents: 3017 diff changeset	584 size += malloced_storage_size (table,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	585 256 * (level == 1 ? sizeof (short) :
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	586 sizeof (void *)),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	587 stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	588 return size;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	589 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	590
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	591 static Bytecount
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	592 compute_to_unicode_table_size_1 (void *table, int level,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	593 struct overhead_stats *stats)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	594 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	595 Bytecount size = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	596
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	597 if (level == 2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	598 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	599 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	600 int tab = (int ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	601
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	602 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	603 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	604 if (tab[i] != to_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	605 size += compute_to_unicode_table_size_1 (tab[i], 1, stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	606 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	607 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	608
3024 b7f26b2f78bd [xemacs-hg @ 2005-10-25 08:32:40 by ben] ben parents: 3017 diff changeset	609 size += malloced_storage_size (table,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	610 96 * (level == 1 ? sizeof (int) :
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	611 sizeof (void *)),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	612 stats);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	613 return size;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	614 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	615
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	616 Bytecount
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	617 compute_from_unicode_table_size (Lisp_Object charset,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	618 struct overhead_stats *stats)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	619 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	620 return (compute_from_unicode_table_size_1
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	621 (XCHARSET_FROM_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	622 XCHARSET_FROM_UNICODE_LEVELS (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	623 stats));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	624 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	625
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	626 Bytecount
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	627 compute_to_unicode_table_size (Lisp_Object charset,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	628 struct overhead_stats *stats)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	629 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	630 return (compute_to_unicode_table_size_1
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	631 (XCHARSET_TO_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	632 XCHARSET_DIMENSION (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	633 stats));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	634 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	635
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	636 #endif
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	637
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	638 #ifdef SLEDGEHAMMER_CHECK_UNICODE
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	639
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	640 /* "Sledgehammer checks" are checks that verify the self-consistency
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	641 of an entire structure every time a change is about to be made or
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	642 has been made to the structure. Not fast but a pretty much
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	643 sure-fire way of flushing out any incorrectnesses in the algorithms
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	644 that create the structure.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	645
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	646 Checking only after a change has been made will speed things up by
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	647 a factor of 2, but it doesn't absolutely prove that the code just
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	648 checked caused the problem; perhaps it happened elsewhere, either
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	649 in some code you forgot to sledgehammer check or as a result of
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	650 data corruption. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	651
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	652 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	653 assert_not_any_blank_table (void *tab)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	654 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	655 assert (tab != from_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	656 assert (tab != from_unicode_blank_2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	657 assert (tab != from_unicode_blank_3);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	658 assert (tab != from_unicode_blank_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	659 assert (tab != to_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	660 assert (tab != to_unicode_blank_2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	661 assert (tab);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	662 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	663
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	664 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	665 sledgehammer_check_from_table (Lisp_Object charset, void *table, int level,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	666 int codetop)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	667 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	668 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	669
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	670 switch (level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	671 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	672 case 1:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	673 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	674 short tab = (short ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	675 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	676 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	677 if (tab[i] != -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	678 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	679 Lisp_Object char_charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	680 int c1, c2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	681
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	682 assert (valid_ichar_p (tab[i]));
804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	683 BREAKUP_ICHAR (tab[i], char_charset, c1, c2);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	684 assert (EQ (charset, char_charset));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	685 if (XCHARSET_DIMENSION (charset) == 1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	686 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	687 int *to_table =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	688 (int *) XCHARSET_TO_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	689 assert_not_any_blank_table (to_table);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	690 assert (to_table[c1 - 32] == (codetop << 8) + i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	691 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	692 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	693 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	694 int **to_table =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	695 (int **) XCHARSET_TO_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	696 assert_not_any_blank_table (to_table);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	697 assert_not_any_blank_table (to_table[c1 - 32]);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	698 assert (to_table[c1 - 32][c2 - 32] == (codetop << 8) + i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	699 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	700 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	701 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	702 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	703 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	704 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	705 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	706 short tab = (short ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	707 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	708 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	709 if (tab[i] != from_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	710 sledgehammer_check_from_table (charset, tab[i], 1,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	711 (codetop << 8) + i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	712 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	713 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	714 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	715 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	716 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	717 short *tab = (short *) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	718 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	719 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	720 if (tab[i] != from_unicode_blank_2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	721 sledgehammer_check_from_table (charset, tab[i], 2,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	722 (codetop << 8) + i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	723 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	724 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	725 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	726 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	727 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	728 short **tab = (short **) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	729 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	730 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	731 if (tab[i] != from_unicode_blank_3)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	732 sledgehammer_check_from_table (charset, tab[i], 3,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	733 (codetop << 8) + i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	734 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	735 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	736 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	737 default:
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	738 ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	739 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	740 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	741
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	742 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	743 sledgehammer_check_to_table (Lisp_Object charset, void *table, int level,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	744 int codetop)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	745 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	746 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	747
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	748 switch (level)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	749 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	750 case 1:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	751 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	752 int tab = (int ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	753
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	754 if (XCHARSET_CHARS (charset) == 94)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	755 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	756 assert (tab[0] == -1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	757 assert (tab[95] == -1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	758 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	759
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	760 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	761 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	762 if (tab[i] != -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	763 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	764 int u4, u3, u2, u1, levels;
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	765 Ichar ch;
804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	766 Ichar this_ch;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	767 short val;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	768 void *frtab = XCHARSET_FROM_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	769
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	770 if (XCHARSET_DIMENSION (charset) == 1)
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	771 this_ch = make_ichar (charset, i + 32, 0);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	772 else
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	773 this_ch = make_ichar (charset, codetop + 32, i + 32);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	774
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	775 assert (tab[i] >= 0);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	776 BREAKUP_UNICODE_CODE (tab[i], u4, u3, u2, u1, levels);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	777 assert (levels <= XCHARSET_FROM_UNICODE_LEVELS (charset));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	778
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	779 switch (XCHARSET_FROM_UNICODE_LEVELS (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	780 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	781 case 1: val = ((short *) frtab)[u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	782 case 2: val = ((short **) frtab)[u2][u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	783 case 3: val = ((short ***) frtab)[u3][u2][u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	784 case 4: val = ((short ****) frtab)[u4][u3][u2][u1]; break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	785 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	786 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	787
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	788 ch = make_ichar (charset, val >> 8, val & 0xFF);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	789 assert (ch == this_ch);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	790
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	791 switch (XCHARSET_FROM_UNICODE_LEVELS (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	792 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	793 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	794 assert_not_any_blank_table (frtab);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	795 frtab = ((short ****) frtab)[u4];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	796 /* fall through */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	797 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	798 assert_not_any_blank_table (frtab);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	799 frtab = ((short ***) frtab)[u3];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	800 /* fall through */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	801 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	802 assert_not_any_blank_table (frtab);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	803 frtab = ((short **) frtab)[u2];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	804 /* fall through */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	805 case 1:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	806 assert_not_any_blank_table (frtab);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	807 break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	808 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	809 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	810 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	811 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	812 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	813 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	814 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	815 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	816 int tab = (int ) table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	817
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	818 if (XCHARSET_CHARS (charset) == 94)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	819 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	820 assert (tab[0] == to_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	821 assert (tab[95] == to_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	822 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	823
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	824 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	825 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	826 if (tab[i] != to_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	827 sledgehammer_check_to_table (charset, tab[i], 1, i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	828 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	829 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	830 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	831 default:
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	832 ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	833 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	834 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	835
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	836 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	837 sledgehammer_check_unicode_tables (Lisp_Object charset)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	838 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	839 /* verify that the blank tables have not been modified */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	840 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	841 int from_level = XCHARSET_FROM_UNICODE_LEVELS (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	842 int to_level = XCHARSET_FROM_UNICODE_LEVELS (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	843
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	844 for (i = 0; i < 256; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	845 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	846 assert (from_unicode_blank_1[i] == (short) -1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	847 assert (from_unicode_blank_2[i] == from_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	848 assert (from_unicode_blank_3[i] == from_unicode_blank_2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	849 assert (from_unicode_blank_4[i] == from_unicode_blank_3);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	850 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	851
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	852 for (i = 0; i < 96; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	853 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	854 assert (to_unicode_blank_1[i] == -1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	855 assert (to_unicode_blank_2[i] == to_unicode_blank_1);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	856 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	857
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	858 assert (from_level >= 1 && from_level <= 4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	859
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	860 sledgehammer_check_from_table (charset,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	861 XCHARSET_FROM_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	862 from_level, 0);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	863
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	864 sledgehammer_check_to_table (charset,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	865 XCHARSET_TO_UNICODE_TABLE (charset),
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	866 XCHARSET_DIMENSION (charset), 0);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	867 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	868
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	869 #endif /* SLEDGEHAMMER_CHECK_UNICODE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	870
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	871 static void
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	872 set_unicode_conversion (Ichar chr, int code)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	873 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	874 Lisp_Object charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	875 int c1, c2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	876
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	877 BREAKUP_ICHAR (chr, charset, c1, c2);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	878
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	879 /* I tried an assert on code > 255 \|\| chr == code, but that fails because
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	880 Mule gives many Latin characters separate code points for different
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	881 ISO 8859 coded character sets. Obvious in hindsight.... */
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	882 assert (!EQ (charset, Vcharset_ascii) \|\| chr == code);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	883 assert (!EQ (charset, Vcharset_latin_iso8859_1) \|\| chr == code);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	884 assert (!EQ (charset, Vcharset_control_1) \|\| chr == code);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	885
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	886 /* This assert is needed because it is simply unimplemented. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	887 assert (!EQ (charset, Vcharset_composite));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	888
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	889 #ifdef SLEDGEHAMMER_CHECK_UNICODE
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	890 sledgehammer_check_unicode_tables (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	891 #endif
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	892
2704 114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	893 if (EQ(charset, Vcharset_ascii) \|\| EQ(charset, Vcharset_control_1))
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	894 return;
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	895
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	896 /* First, the char -> unicode translation */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	897
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	898 if (XCHARSET_DIMENSION (charset) == 1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	899 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	900 int to_table = (int ) XCHARSET_TO_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	901 to_table[c1 - 32] = code;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	902 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	903 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	904 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	905 int to_table_2 = (int ) XCHARSET_TO_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	906 int *to_table_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	907
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	908 assert (XCHARSET_DIMENSION (charset) == 2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	909 to_table_1 = to_table_2[c1 - 32];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	910 if (to_table_1 == to_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	911 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	912 to_table_1 = xnew_array (int, 96);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	913 memcpy (to_table_1, to_unicode_blank_1, 96 * sizeof (int));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	914 to_table_2[c1 - 32] = to_table_1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	915 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	916 to_table_1[c2 - 32] = code;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	917 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	918
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	919 /* Then, unicode -> char: much harder */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	920
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	921 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	922 int charset_levels;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	923 int u4, u3, u2, u1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	924 int code_levels;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	925 BREAKUP_UNICODE_CODE (code, u4, u3, u2, u1, code_levels);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	926
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	927 charset_levels = XCHARSET_FROM_UNICODE_LEVELS (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	928
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	929 /* Make sure the charset's tables have at least as many levels as
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	930 the code point has: Note that the charset is guaranteed to have
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	931 at least one level, because it was created that way */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	932 if (charset_levels < code_levels)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	933 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	934 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	935
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	936 assert (charset_levels > 0);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	937 for (i = 2; i <= code_levels; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	938 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	939 if (charset_levels < i)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	940 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	941 void *old_table = XCHARSET_FROM_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	942 void *table = create_new_from_unicode_table (i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	943 XCHARSET_FROM_UNICODE_TABLE (charset) = table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	944
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	945 switch (i)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	946 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	947 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	948 ((short *) table)[0] = (short ) old_table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	949 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	950 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	951 ((short *) table)[0] = (short ) old_table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	952 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	953 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	954 ((short **) table)[0] = (short *) old_table;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	955 break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	956 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	957 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	958 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	959 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	960
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	961 charset_levels = code_levels;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	962 XCHARSET_FROM_UNICODE_LEVELS (charset) = code_levels;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	963 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	964
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	965 /* Now, make sure there is a non-default table at each level */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	966 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	967 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	968 void *table = XCHARSET_FROM_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	969
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	970 for (i = charset_levels; i >= 2; i--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	971 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	972 switch (i)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	973 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	974 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	975 if (((short ****) table)[u4] == from_unicode_blank_3)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	976 ((short ****) table)[u4] =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	977 ((short ***) create_new_from_unicode_table (3));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	978 table = ((short ****) table)[u4];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	979 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	980 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	981 if (((short ***) table)[u3] == from_unicode_blank_2)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	982 ((short ***) table)[u3] =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	983 ((short **) create_new_from_unicode_table (2));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	984 table = ((short ***) table)[u3];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	985 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	986 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	987 if (((short **) table)[u2] == from_unicode_blank_1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	988 ((short **) table)[u2] =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	989 ((short *) create_new_from_unicode_table (1));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	990 table = ((short **) table)[u2];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	991 break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	992 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	993 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	994 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	995 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	996
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	997 /* Finally, set the character */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	998
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	999 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1000 void *table = XCHARSET_FROM_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1001 switch (charset_levels)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1002 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1003 case 1: ((short *) table)[u1] = (c1 << 8) + c2; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1004 case 2: ((short **) table)[u2][u1] = (c1 << 8) + c2; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1005 case 3: ((short ***) table)[u3][u2][u1] = (c1 << 8) + c2; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1006 case 4: ((short ****) table)[u4][u3][u2][u1] = (c1 << 8) + c2; break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	1007 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1008 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1009 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1010 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1011
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1012 #ifdef SLEDGEHAMMER_CHECK_UNICODE
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1013 sledgehammer_check_unicode_tables (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1014 #endif
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1015 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1016
788 026c5bf9c134 [xemacs-hg @ 2002-03-21 07:29:57 by ben] ben parents: 778 diff changeset	1017 int
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1018 ichar_to_unicode (Ichar chr)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1019 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1020 Lisp_Object charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1021 int c1, c2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1022
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1023 type_checking_assert (valid_ichar_p (chr));
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1024 /* This shortcut depends on the representation of an Ichar, see text.c. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1025 if (chr < 256)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1026 return (int) chr;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1027
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1028 BREAKUP_ICHAR (chr, charset, c1, c2);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1029 if (EQ (charset, Vcharset_composite))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1030 return -1; /* #### don't know how to handle */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1031 else if (XCHARSET_DIMENSION (charset) == 1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1032 return ((int *) XCHARSET_TO_UNICODE_TABLE (charset))[c1 - 32];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1033 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1034 return ((int **) XCHARSET_TO_UNICODE_TABLE (charset))[c1 - 32][c2 - 32];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1035 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1036
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1037 static Ichar
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1038 get_free_codepoint(Lisp_Object charset)
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1039 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1040 Lisp_Object name = Fcharset_name(charset);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1041 Lisp_Object zeichen = Fget(name, Qlast_allocated_character, Qnil);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1042 Ichar res;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1043
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1044 /* Only allow this with the 96x96 character sets we are using for
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1045 temporary Unicode support. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1046 assert(2 == XCHARSET_DIMENSION(charset) && 96 == XCHARSET_CHARS(charset));
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1047
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1048 if (!NILP(zeichen))
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1049 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1050 int c1, c2;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1051
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1052 BREAKUP_ICHAR(XCHAR(zeichen), charset, c1, c2);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1053
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1054 if (127 == c1 && 127 == c2)
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1055 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1056 /* We've already used the hightest-numbered character in this
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1057 set--tell our caller to create another. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1058 return -1;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1059 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1060
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1061 if (127 == c2)
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1062 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1063 ++c1;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1064 c2 = 0x20;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1065 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1066 else
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1067 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1068 ++c2;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1069 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1070
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1071 res = make_ichar(charset, c1, c2);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1072 Fput(name, Qlast_allocated_character, make_char(res));
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1073 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1074 else
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1075 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1076 res = make_ichar(charset, 32, 32);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1077 Fput(name, Qlast_allocated_character, make_char(res));
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1078 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1079 return res;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1080 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1081
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1082 /* The just-in-time creation of XEmacs characters that correspond to unknown
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1083 Unicode code points happens when:
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1084
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1085 1. The lookup would otherwise fail.
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1086
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1087 2. The charsets array is the nil or the default.
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1088
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1089 If there are no free code points in the just-in-time Unicode character
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1090 set, and the charsets array is the default unicode precedence list,
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1091 create a new just-in-time Unicode character set, add it at the end of the
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1092 unicode precedence list, create the XEmacs character in that character
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1093 set, and return it. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1094
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1095 static Ichar
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1096 unicode_to_ichar (int code, Lisp_Object_dynarr *charsets)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1097 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1098 int u1, u2, u3, u4;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1099 int code_levels;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1100 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1101 int n = Dynarr_length (charsets);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1102
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1103 type_checking_assert (code >= 0);
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1104 /* This shortcut depends on the representation of an Ichar, see text.c.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1105 Note that it may _not_ be extended to U+00A0 to U+00FF (many ISO 8859
893 c9f067fd71a3 [xemacs-hg @ 2002-07-02 12:32:34 by stephent] stephent parents: 877 diff changeset	1106 coded character sets have points that map into that region, so this
c9f067fd71a3 [xemacs-hg @ 2002-07-02 12:32:34 by stephent] stephent parents: 877 diff changeset	1107 function is many-valued). */
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1108 if (code < 0xA0)
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1109 return (Ichar) code;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1110
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1111 BREAKUP_UNICODE_CODE (code, u4, u3, u2, u1, code_levels);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1112
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1113 for (i = 0; i < n; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1114 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1115 Lisp_Object charset = Dynarr_at (charsets, i);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1116 int charset_levels = XCHARSET_FROM_UNICODE_LEVELS (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1117 if (charset_levels >= code_levels)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1118 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1119 void *table = XCHARSET_FROM_UNICODE_TABLE (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1120 short retval;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1121
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1122 switch (charset_levels)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1123 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1124 case 1: retval = ((short *) table)[u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1125 case 2: retval = ((short **) table)[u2][u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1126 case 3: retval = ((short ***) table)[u3][u2][u1]; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1127 case 4: retval = ((short ****) table)[u4][u3][u2][u1]; break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	1128 default: ABORT (); retval = 0;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1129 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1130
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1131 if (retval != -1)
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1132 return make_ichar (charset, retval >> 8, retval & 0xFF);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1133 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1134 }
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1135
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1136 /* Only do the magic just-in-time assignment if we're using the default
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1137 list. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1138 if (unicode_precedence_dynarr == charsets)
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1139 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1140 if (NILP (Vcurrent_jit_charset) \|\|
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1141 (-1 == (i = get_free_codepoint(Vcurrent_jit_charset))))
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1142 {
3452 551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1143 Ibyte setname[32];
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1144 int number_of_jit_charsets = XINT (Vnumber_of_jit_charsets);
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1145 Ascbyte last_jit_charset_final = XCHAR (Vlast_jit_charset_final);
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1146
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1147 /* This final byte shit is, umm, not that cool. */
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1148 assert (last_jit_charset_final >= 0x30);
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1149
3452 551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1150 /* Assertion added partly because our Win32 layer doesn't
551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1151 support snprintf; with this, we're sure it won't overflow
551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1152 the buffer. */
551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1153 assert(100 > number_of_jit_charsets);
551c008d3777 [xemacs-hg @ 2006-06-14 06:10:08 by aidan] aidan parents: 3439 diff changeset	1154
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1155 qxesprintf(setname, "jit-ucs-charset-%d", number_of_jit_charsets);
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1156
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1157 Vcurrent_jit_charset = Fmake_charset
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	1158 (intern_int (setname), Vcharset_descr,
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1159 /* Set encode-as-utf-8 to t, to have this character set written
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1160 using UTF-8 escapes in escape-quoted and ctext. This
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1161 sidesteps the fact that our internal character -> Unicode
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1162 mapping is not stable from one invocation to the next. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1163 nconc2 (list2(Qencode_as_utf_8, Qt),
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1164 nconc2 (list6(Qcolumns, make_int(1), Qchars, make_int(96),
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1165 Qdimension, make_int(2)),
3659 98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	1166 list6(Qregistries, Qunicode_registries,
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1167 Qfinal, make_char(last_jit_charset_final),
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1168 /* This CCL program is initialised in
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1169 unicode.el. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1170 Qccl_program, Qccl_encode_to_ucs_2))));
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1171
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1172 /* Record for the Unicode infrastructure that we've created
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1173 this character set. */
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1174 Vnumber_of_jit_charsets = make_int (number_of_jit_charsets + 1);
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1175 Vlast_jit_charset_final = make_char (last_jit_charset_final + 1);
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1176
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1177 i = get_free_codepoint(Vcurrent_jit_charset);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1178 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1179
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1180 if (-1 != i)
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1181 {
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1182 set_unicode_conversion((Ichar)i, code);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1183 /* No need to add the charset to the end of the list; it's done
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1184 automatically. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1185 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1186 }
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1187 return (Ichar) i;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1188 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1189
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1190 /* Add charsets to precedence list.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1191 LIST must be a list of charsets. Charsets which are in the list more
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1192 than once are given the precedence implied by their earliest appearance.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1193 Later appearances are ignored. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1194 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1195 add_charsets_to_precedence_list (Lisp_Object list, int *lbs,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1196 Lisp_Object_dynarr *dynarr)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1197 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1198 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1199 EXTERNAL_LIST_LOOP_2 (elt, list)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1200 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1201 Lisp_Object charset = Fget_charset (elt);
778 2923009caf47 [xemacs-hg @ 2002-03-16 10:38:59 by ben] ben parents: 771 diff changeset	1202 int lb = XCHARSET_LEADING_BYTE (charset);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1203 if (lbs[lb - MIN_LEADING_BYTE] == 0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1204 {
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1205 Dynarr_add (dynarr, charset);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1206 lbs[lb - MIN_LEADING_BYTE] = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1207 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1208 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1209 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1210 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1211
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1212 /* Rebuild the charset precedence array.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1213 The "charsets preferred for the current language" get highest precedence,
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1214 followed by the "charsets preferred by default", ordered as in
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1215 Vlanguage_unicode_precedence_list and Vdefault_unicode_precedence_list,
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1216 respectively. All remaining charsets follow in an arbitrary order. */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1217 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1218 recalculate_unicode_precedence (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1219 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1220 int lbs[NUM_LEADING_BYTES];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1221 int i;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1222
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1223 for (i = 0; i < NUM_LEADING_BYTES; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1224 lbs[i] = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1225
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1226 Dynarr_reset (unicode_precedence_dynarr);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1227
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1228 add_charsets_to_precedence_list (Vlanguage_unicode_precedence_list,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1229 lbs, unicode_precedence_dynarr);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1230 add_charsets_to_precedence_list (Vdefault_unicode_precedence_list,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1231 lbs, unicode_precedence_dynarr);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1232
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1233 for (i = 0; i < NUM_LEADING_BYTES; i++)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1234 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1235 if (lbs[i] == 0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1236 {
826 6728e641994e [xemacs-hg @ 2002-05-05 11:30:15 by ben] ben parents: 800 diff changeset	1237 Lisp_Object charset = charset_by_leading_byte (i + MIN_LEADING_BYTE);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1238 if (!NILP (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1239 Dynarr_add (unicode_precedence_dynarr, charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1240 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1241 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1242 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1243
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1244 DEFUN ("unicode-precedence-list",
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1245 Funicode_precedence_list,
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1246 0, 0, 0, /*
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1247 Return the precedence order among charsets used for Unicode decoding.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1248
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1249 Value is a list of charsets, which are searched in order for a translation
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1250 matching a given Unicode character.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1251
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1252 The highest precedence is given to the language-specific precedence list of
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1253 charsets, defined by `set-language-unicode-precedence-list'. These are
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1254 followed by charsets in the default precedence list, defined by
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1255 `set-default-unicode-precedence-list'. Charsets occurring multiple times are
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1256 given precedence according to their first occurrance in either list. These
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1257 are followed by the remaining charsets, in some arbitrary order.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1258
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1259 The language-specific precedence list is meant to be set as part of the
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1260 language environment initialization; the default precedence list is meant
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1261 to be set by the user.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1262
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1263 #### NOTE: This interface may be changed.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1264 */
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1265 ())
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1266 {
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1267 int i;
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1268 Lisp_Object list = Qnil;
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1269
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1270 for (i = Dynarr_length (unicode_precedence_dynarr) - 1; i >= 0; i--)
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1271 list = Fcons (Dynarr_at (unicode_precedence_dynarr, i), list);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1272 return list;
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1273 }
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1274
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1275
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1276 /* #### This interface is wrong. Cyrillic users and Chinese users are going
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1277 to have varying opinions about whether ISO Cyrillic, KOI8-R, or Windows
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1278 1251 should take precedence, and whether Big Five or CNS should take
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1279 precedence, respectively. This means that users are sometimes going to
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1280 want to set Vlanguage_unicode_precedence_list.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1281 Furthermore, this should be language-local (buffer-local would be a
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1282 reasonable approximation).
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1283
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1284 Answer: You are right, this needs rethinking. */
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1285 DEFUN ("set-language-unicode-precedence-list",
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1286 Fset_language_unicode_precedence_list,
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1287 1, 1, 0, /*
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1288 Set the language-specific precedence of charsets in Unicode decoding.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1289 LIST is a list of charsets.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1290 See `unicode-precedence-list' for more information.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1291
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1292 #### NOTE: This interface may be changed.
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1293 */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1294 (list))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1295 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1296 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1297 EXTERNAL_LIST_LOOP_2 (elt, list)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1298 Fget_charset (elt);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1299 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1300
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1301 Vlanguage_unicode_precedence_list = list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1302 recalculate_unicode_precedence ();
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1303 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1304 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1305
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1306 DEFUN ("language-unicode-precedence-list",
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1307 Flanguage_unicode_precedence_list,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1308 0, 0, 0, /*
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1309 Return the language-specific precedence list used for Unicode decoding.
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1310 See `unicode-precedence-list' for more information.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1311
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1312 #### NOTE: This interface may be changed.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1313 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1314 ())
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1315 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1316 return Vlanguage_unicode_precedence_list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1317 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1318
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1319 DEFUN ("set-default-unicode-precedence-list",
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1320 Fset_default_unicode_precedence_list,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1321 1, 1, 0, /*
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1322 Set the default precedence list used for Unicode decoding.
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1323 This is intended to be set by the user. See
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1324 `unicode-precedence-list' for more information.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1325
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1326 #### NOTE: This interface may be changed.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1327 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1328 (list))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1329 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1330 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1331 EXTERNAL_LIST_LOOP_2 (elt, list)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1332 Fget_charset (elt);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1333 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1334
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1335 Vdefault_unicode_precedence_list = list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1336 recalculate_unicode_precedence ();
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1337 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1338 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1339
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1340 DEFUN ("default-unicode-precedence-list",
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1341 Fdefault_unicode_precedence_list,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1342 0, 0, 0, /*
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1343 Return the default precedence list used for Unicode decoding.
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1344 See `unicode-precedence-list' for more information.
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1345
b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1346 #### NOTE: This interface may be changed.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1347 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1348 ())
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1349 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1350 return Vdefault_unicode_precedence_list;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1351 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1352
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1353 DEFUN ("set-unicode-conversion", Fset_unicode_conversion,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1354 2, 2, 0, /*
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1355 Add conversion information between Unicode codepoints and characters.
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1356 Conversions for U+0000 to U+00FF are hardwired to ASCII, Control-1, and
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1357 Latin-1. Attempts to set these values will raise an error.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1358
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1359 CHARACTER is one of the following:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1360
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1361 -- A character (in which case CODE must be a non-negative integer; values
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1362 above 2^20 - 1 are allowed for the purpose of specifying private
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1363 characters, but are illegal in standard Unicode---they will cause errors
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1364 when converted to utf-16)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1365 -- A vector of characters (in which case CODE must be a vector of integers
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1366 of the same length)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1367 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1368 (character, code))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1369 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1370 Lisp_Object charset;
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1371 int ichar, unicode;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1372
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1373 CHECK_CHAR (character);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1374 CHECK_NATNUM (code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1375
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1376 unicode = XINT (code);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1377 ichar = XCHAR (character);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1378 charset = ichar_charset (ichar);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1379
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1380 /* The translations of ASCII, Control-1, and Latin-1 code points are
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1381 hard-coded in ichar_to_unicode and unicode_to_ichar.
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1382
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1383 Checking unicode < 256 && ichar != unicode is wrong because Mule gives
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1384 many Latin characters code points in a few different character sets. */
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1385 if ((EQ (charset, Vcharset_ascii) \|\|
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1386 EQ (charset, Vcharset_control_1) \|\|
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1387 EQ (charset, Vcharset_latin_iso8859_1))
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1388 && unicode != ichar)
893 c9f067fd71a3 [xemacs-hg @ 2002-07-02 12:32:34 by stephent] stephent parents: 877 diff changeset	1389 signal_error (Qinvalid_argument, "Can't change Unicode translation for ASCII, Control-1 or Latin-1 character",
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1390 character);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1391
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1392 /* #### Composite characters are not properly implemented yet. */
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1393 if (EQ (charset, Vcharset_composite))
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1394 signal_error (Qinvalid_argument, "Can't set Unicode translation for Composite char",
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1395 character);
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1396
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1397 set_unicode_conversion (ichar, unicode);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1398 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1399 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1400
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1401 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1402
800 a5954632b187 [xemacs-hg @ 2002-03-31 08:27:14 by ben] ben parents: 793 diff changeset	1403 DEFUN ("char-to-unicode", Fchar_to_unicode, 1, 1, 0, /*
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1404 Convert character to Unicode codepoint.
3025 facf3239ba30 [xemacs-hg @ 2005-10-25 11:16:19 by ben] ben parents: 3024 diff changeset	1405 When there is no international support (i.e. the `mule' feature is not
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1406 present), this function simply does `char-to-int'.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1407 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1408 (character))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1409 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1410 CHECK_CHAR (character);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1411 #ifdef MULE
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1412 return make_int (ichar_to_unicode (XCHAR (character)));
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1413 #else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1414 return Fchar_to_int (character);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1415 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1416 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1417
800 a5954632b187 [xemacs-hg @ 2002-03-31 08:27:14 by ben] ben parents: 793 diff changeset	1418 DEFUN ("unicode-to-char", Funicode_to_char, 1, 2, 0, /*
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1419 Convert Unicode codepoint to character.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1420 CODE should be a non-negative integer.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1421 If CHARSETS is given, it should be a list of charsets, and only those
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1422 charsets will be consulted, in the given order, for a translation.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1423 Otherwise, the default ordering of all charsets will be given (see
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1424 `set-unicode-charset-precedence').
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1425
3025 facf3239ba30 [xemacs-hg @ 2005-10-25 11:16:19 by ben] ben parents: 3024 diff changeset	1426 When there is no international support (i.e. the `mule' feature is not
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1427 present), this function simply does `int-to-char' and ignores the CHARSETS
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1428 argument.
2622 c8a9be2d4728 [xemacs-hg @ 2005-02-28 23:36:30 by aidan] aidan parents: 2551 diff changeset	1429
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1430 If the CODE would not otherwise be converted to an XEmacs character, and the
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1431 list of character sets to be consulted is nil or the default, a new XEmacs
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1432 character will be created for it in one of the `jit-ucs-charset' Mule
4268 75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1433 character sets, and that character will be returned.
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1434
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1435 This is limited to around 400,000 characters per XEmacs session, though, so
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1436 while normal usage will not be problematic, things like:
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1437
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1438 \(dotimes (i #x110000) (decode-char 'ucs i))
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1439
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1440 will eventually error. The long-term solution to this is Unicode as an
75d0292c1bff [xemacs-hg @ 2007-11-14 19:41:04 by aidan] aidan parents: 4096 diff changeset	1441 internal encoding.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1442 */
2333 ba4677f54a05 [xemacs-hg @ 2004-10-14 17:26:18 by james] james parents: 2286 diff changeset	1443 (code, USED_IF_MULE (charsets)))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1444 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1445 #ifdef MULE
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1446 Lisp_Object_dynarr *dyn;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1447 int lbs[NUM_LEADING_BYTES];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1448 int c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1449
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1450 CHECK_NATNUM (code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1451 c = XINT (code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1452 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1453 EXTERNAL_LIST_LOOP_2 (elt, charsets)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1454 Fget_charset (elt);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1455 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1456
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1457 if (NILP (charsets))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1458 {
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1459 Ichar ret = unicode_to_ichar (c, unicode_precedence_dynarr);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1460 if (ret == -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1461 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1462 return make_char (ret);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1463 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1464
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1465 dyn = Dynarr_new (Lisp_Object);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1466 memset (lbs, 0, NUM_LEADING_BYTES * sizeof (int));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1467 add_charsets_to_precedence_list (charsets, lbs, dyn);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1468 {
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1469 Ichar ret = unicode_to_ichar (c, dyn);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1470 Dynarr_free (dyn);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1471 if (ret == -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1472 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1473 return make_char (ret);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1474 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1475 #else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1476 CHECK_NATNUM (code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1477 return Fint_to_char (code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1478 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1479 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1480
872 79c6ff3eef26 [xemacs-hg @ 2002-06-20 21:18:01 by ben] ben parents: 867 diff changeset	1481 #ifdef MULE
79c6ff3eef26 [xemacs-hg @ 2002-06-20 21:18:01 by ben] ben parents: 867 diff changeset	1482
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1483 static Lisp_Object
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1484 cerrar_el_fulano (Lisp_Object fulano)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1485 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1486 FILE file = (FILE ) get_opaque_ptr (fulano);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1487 retry_fclose (file);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1488 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1489 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1490
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1491 DEFUN ("load-unicode-mapping-table", Fload_unicode_mapping_table,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1492 2, 6, 0, /*
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1493 Load Unicode tables with the Unicode mapping data in FILENAME for CHARSET.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1494 Data is text, in the form of one translation per line -- charset
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1495 codepoint followed by Unicode codepoint. Numbers are decimal or hex
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1496 \(preceded by 0x). Comments are marked with a #. Charset codepoints
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1497 for two-dimensional charsets have the first octet stored in the
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1498 high 8 bits of the hex number and the second in the low 8 bits.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1499
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1500 If START and END are given, only charset codepoints within the given
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1501 range will be processed. (START and END apply to the codepoints in the
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1502 file, before OFFSET is applied.)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1503
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1504 If OFFSET is given, that value will be added to all charset codepoints
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1505 in the file to obtain the internal charset codepoint. \(We assume
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1506 that octets in the table are in the range 33 to 126 or 32 to 127. If
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1507 you have a table in ku-ten form, with octets in the range 1 to 94, you
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1508 will have to use an offset of 5140, i.e. 0x2020.)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1509
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1510 FLAGS, if specified, control further how the tables are interpreted
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1511 and are used to special-case certain known format deviations in the
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1512 Unicode tables or in the charset:
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1513
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1514 `ignore-first-column'
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1515 The JIS X 0208 tables have 3 columns of data instead of 2. The first
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1516 column contains the Shift-JIS codepoint, which we ignore.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1517 `big5'
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1518 The charset codepoints are Big Five codepoints; convert it to the
e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1519 hacked-up Mule codepoint in `chinese-big5-1' or `chinese-big5-2'.
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1520 */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1521 (filename, charset, start, end, offset, flags))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1522 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1523 int st = 0, en = INT_MAX, of = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1524 FILE *file;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1525 struct gcpro gcpro1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1526 char line[1025];
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1527 int fondo = specpdl_depth ();
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1528 int ignore_first_column = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1529 int big5 = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1530
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1531 CHECK_STRING (filename);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1532 charset = Fget_charset (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1533 if (!NILP (start))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1534 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1535 CHECK_INT (start);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1536 st = XINT (start);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1537 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1538 if (!NILP (end))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1539 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1540 CHECK_INT (end);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1541 en = XINT (end);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1542 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1543 if (!NILP (offset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1544 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1545 CHECK_INT (offset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1546 of = XINT (offset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1547 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1548
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1549 if (!LISTP (flags))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1550 flags = list1 (flags);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1551
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1552 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1553 EXTERNAL_LIST_LOOP_2 (elt, flags)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1554 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1555 if (EQ (elt, Qignore_first_column))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1556 ignore_first_column = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1557 else if (EQ (elt, Qbig5))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1558 big5 = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1559 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1560 invalid_constant
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	1561 ("Unrecognized `load-unicode-mapping-table' flag", elt);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1562 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1563 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1564
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1565 GCPRO1 (filename);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1566 filename = Fexpand_file_name (filename, Qnil);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1567 file = qxe_fopen (XSTRING_DATA (filename), READ_TEXT);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1568 if (!file)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1569 report_file_error ("Cannot open", filename);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1570 record_unwind_protect (cerrar_el_fulano, make_opaque_ptr (file));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1571 while (fgets (line, sizeof (line), file))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1572 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1573 char *p = line;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1574 int cp1, cp2, endcount;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1575 int cp1high, cp1low;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1576 int dummy;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1577
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1578 while (p) / erase all comments out of the line */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1579 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1580 if (*p == '#')
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1581 *p = '\0';
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1582 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1583 p++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1584 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1585 /* see if line is nothing but whitespace and skip if so */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1586 p = line + strspn (line, " \t\n\r\f");
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1587 if (!*p)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1588 continue;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1589 /* NOTE: It appears that MS Windows and Newlib sscanf() have
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1590 different interpretations for whitespace (== "skip all whitespace
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1591 at processing point"): Newlib requires at least one corresponding
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1592 whitespace character in the input, but MS allows none. The
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1593 following would be easier to write if we could count on the MS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1594 interpretation.
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1595
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1596 Also, the return value does NOT include %n storage. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1597 if ((!ignore_first_column ?
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1598 sscanf (p, "%i %i%n", &cp1, &cp2, &endcount) < 2 :
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1599 sscanf (p, "%i %i %i%n", &dummy, &cp1, &cp2, &endcount) < 3)
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1600 /* #### Temporary code! Cygwin newlib fucked up scanf() handling
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1601 of numbers beginning 0x0... starting in 04/2004, in an attempt
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1602 to fix another bug. A partial fix for this was put in in
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1603 06/2004, but as of 10/2004 the value of ENDCOUNT returned in
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1604 such case is still wrong. If this gets fixed soon, remove
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1605 this code. --ben */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1606 #ifndef CYGWIN_SCANF_BUG
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1607 \|\| *(p + endcount + strspn (p + endcount, " \t\n\r\f"))
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1608 #endif
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	1609 )
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1610 {
793 e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1611 warn_when_safe (Qunicode, Qwarning,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1612 "Unrecognized line in translation file %s:\n%s",
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1613 XSTRING_DATA (filename), line);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1614 continue;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1615 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1616 if (cp1 >= st && cp1 <= en)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1617 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1618 cp1 += of;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1619 if (cp1 < 0 \|\| cp1 >= 65536)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1620 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1621 out_of_range:
793 e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1622 warn_when_safe (Qunicode, Qwarning,
e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1623 "Out of range first codepoint 0x%x in "
e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1624 "translation file %s:\n%s",
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1625 cp1, XSTRING_DATA (filename), line);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1626 continue;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1627 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1628
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1629 cp1high = cp1 >> 8;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1630 cp1low = cp1 & 255;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1631
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1632 if (big5)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1633 {
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1634 Ichar ch = decode_big5_char (cp1high, cp1low);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1635 if (ch == -1)
793 e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1636
e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1637 warn_when_safe (Qunicode, Qwarning,
e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1638 "Out of range Big5 codepoint 0x%x in "
e38acbeb1cae [xemacs-hg @ 2002-03-29 04:46:17 by ben] ben parents: 788 diff changeset	1639 "translation file %s:\n%s",
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1640 cp1, XSTRING_DATA (filename), line);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1641 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1642 set_unicode_conversion (ch, cp2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1643 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1644 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1645 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1646 int l1, h1, l2, h2;
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1647 Ichar emch;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1648
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1649 switch (XCHARSET_TYPE (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1650 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1651 case CHARSET_TYPE_94: l1 = 33; h1 = 126; l2 = 0; h2 = 0; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1652 case CHARSET_TYPE_96: l1 = 32; h1 = 127; l2 = 0; h2 = 0; break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1653 case CHARSET_TYPE_94X94: l1 = 33; h1 = 126; l2 = 33; h2 = 126;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1654 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1655 case CHARSET_TYPE_96X96: l1 = 32; h1 = 127; l2 = 32; h2 = 127;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1656 break;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	1657 default: ABORT (); l1 = 0; h1 = 0; l2 = 0; h2 = 0;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1658 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1659
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1660 if (cp1high < l2 \|\| cp1high > h2 \|\| cp1low < l1 \|\| cp1low > h1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1661 goto out_of_range;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1662
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1663 emch = (cp1high == 0 ? make_ichar (charset, cp1low, 0) :
804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1664 make_ichar (charset, cp1high, cp1low));
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1665 set_unicode_conversion (emch, cp2);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1666 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1667 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1668 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1669
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1670 if (ferror (file))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1671 report_file_error ("IO error when reading", filename);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1672
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1673 unbind_to (fondo); /* close file */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1674 UNGCPRO;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1675 return Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1676 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1677
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1678 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1679
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1680
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1681 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1682 /* Unicode coding system */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1683 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1684
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1685 struct unicode_coding_system
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1686 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1687 enum unicode_type type;
1887 1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	1688 unsigned int little_endian :1;
1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	1689 unsigned int need_bom :1;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1690 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1691
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1692 #define CODING_SYSTEM_UNICODE_TYPE(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1693 (CODING_SYSTEM_TYPE_DATA (codesys, unicode)->type)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1694 #define XCODING_SYSTEM_UNICODE_TYPE(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1695 CODING_SYSTEM_UNICODE_TYPE (XCODING_SYSTEM (codesys))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1696 #define CODING_SYSTEM_UNICODE_LITTLE_ENDIAN(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1697 (CODING_SYSTEM_TYPE_DATA (codesys, unicode)->little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1698 #define XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1699 CODING_SYSTEM_UNICODE_LITTLE_ENDIAN (XCODING_SYSTEM (codesys))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1700 #define CODING_SYSTEM_UNICODE_NEED_BOM(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1701 (CODING_SYSTEM_TYPE_DATA (codesys, unicode)->need_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1702 #define XCODING_SYSTEM_UNICODE_NEED_BOM(codesys) \
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1703 CODING_SYSTEM_UNICODE_NEED_BOM (XCODING_SYSTEM (codesys))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1704
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1705 struct unicode_coding_stream
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1706 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1707 /* decode */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1708 unsigned char counter;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1709 unsigned char indicated_length;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1710 int seen_char;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1711 /* encode */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1712 Lisp_Object current_charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1713 int current_char_boundary;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1714 int wrote_bom;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1715 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1716
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	1717 static const struct memory_description unicode_coding_system_description[] = {
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1718 { XD_END }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1719 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1720
1204 e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	1721 DEFINE_CODING_SYSTEM_TYPE_WITH_DATA (unicode);
e22b0213b713 [xemacs-hg @ 2003-01-12 11:07:58 by michaels] michaels parents: 985 diff changeset	1722
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1723 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1724 decode_unicode_char (int ch, unsigned_char_dynarr *dst,
1887 1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	1725 struct unicode_coding_stream *data,
1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	1726 unsigned int ignore_bom)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1727 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1728 if (ch == 0xFEFF && !data->seen_char && ignore_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1729 ;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1730 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1731 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1732 #ifdef MULE
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	1733 Ichar chr = unicode_to_ichar (ch, unicode_precedence_dynarr);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1734
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1735 if (chr != -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1736 {
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1737 Ibyte work[MAX_ICHAR_LEN];
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1738 int len;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1739
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1740 len = set_itext_ichar (work, chr);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1741 Dynarr_add_many (dst, work, len);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1742 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1743 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1744 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1745 Dynarr_add (dst, LEADING_BYTE_JAPANESE_JISX0208);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1746 Dynarr_add (dst, 34 + 128);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1747 Dynarr_add (dst, 46 + 128);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1748 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1749 #else
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1750 Dynarr_add (dst, (Ibyte) ch);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1751 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1752 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1753
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1754 data->seen_char = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1755 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1756
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1757 #define DECODE_ERROR_OCTET(octet, dst, data, ignore_bom) \
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1758 decode_unicode_char ((octet) + UNICODE_ERROR_OCTET_RANGE_START, \
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1759 dst, data, ignore_bom)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1760
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1761 static inline void
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1762 indicate_invalid_utf_8 (unsigned char indicated_length,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1763 unsigned char counter,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1764 int ch, unsigned_char_dynarr *dst,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1765 struct unicode_coding_stream *data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1766 unsigned int ignore_bom)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1767 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1768 Binbyte stored = indicated_length - counter;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1769 Binbyte mask = "\x00\x00\xC0\xE0\xF0\xF8\xFC"[indicated_length];
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1770
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1771 while (stored > 0)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1772 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1773 DECODE_ERROR_OCTET (((ch >> (6 * (stored - 1))) & 0x3f) \| mask,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1774 dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1775 mask = 0x80, stored--;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1776 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1777 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1778
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1779 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1780 encode_unicode_char_1 (int code, unsigned_char_dynarr *dst,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1781 enum unicode_type type, unsigned int little_endian,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1782 int write_error_characters_as_such)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1783 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1784 switch (type)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1785 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1786 case UNICODE_UTF_16:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1787 if (little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1788 {
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1789 if (code < 0x10000) {
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1790 Dynarr_add (dst, (unsigned char) (code & 255));
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1791 Dynarr_add (dst, (unsigned char) ((code >> 8) & 255));
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1792 } else if (write_error_characters_as_such &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1793 code >= UNICODE_ERROR_OCTET_RANGE_START &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1794 code < (UNICODE_ERROR_OCTET_RANGE_START + 0x100))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1795 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1796 Dynarr_add (dst, (unsigned char) ((code & 0xFF)));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1797 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1798 else if (code < 0x110000)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1799 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1800 /* Little endian; least significant byte first. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1801 int first, second;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1802
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1803 CODE_TO_UTF_16_SURROGATES(code, first, second);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1804
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1805 Dynarr_add (dst, (unsigned char) (first & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1806 Dynarr_add (dst, (unsigned char) ((first >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1807
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1808 Dynarr_add (dst, (unsigned char) (second & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1809 Dynarr_add (dst, (unsigned char) ((second >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1810 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1811 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1812 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1813 /* Not valid Unicode. Pass U+FFFD, least significant byte
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1814 first. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1815 Dynarr_add (dst, (unsigned char) 0xFD);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1816 Dynarr_add (dst, (unsigned char) 0xFF);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1817 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1818 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1819 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1820 {
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1821 if (code < 0x10000) {
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1822 Dynarr_add (dst, (unsigned char) ((code >> 8) & 255));
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	1823 Dynarr_add (dst, (unsigned char) (code & 255));
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1824 } else if (write_error_characters_as_such &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1825 code >= UNICODE_ERROR_OCTET_RANGE_START &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1826 code < (UNICODE_ERROR_OCTET_RANGE_START + 0x100))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1827 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1828 Dynarr_add (dst, (unsigned char) ((code & 0xFF)));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1829 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1830 else if (code < 0x110000)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1831 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1832 /* Big endian; most significant byte first. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1833 int first, second;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1834
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1835 CODE_TO_UTF_16_SURROGATES(code, first, second);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1836
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1837 Dynarr_add (dst, (unsigned char) ((first >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1838 Dynarr_add (dst, (unsigned char) (first & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1839
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1840 Dynarr_add (dst, (unsigned char) ((second >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1841 Dynarr_add (dst, (unsigned char) (second & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1842 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1843 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1844 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1845 /* Not valid Unicode. Pass U+FFFD, most significant byte
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1846 first. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1847 Dynarr_add (dst, (unsigned char) 0xFF);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1848 Dynarr_add (dst, (unsigned char) 0xFD);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1849 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1850 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1851 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1852
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1853 case UNICODE_UCS_4:
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1854 case UNICODE_UTF_32:
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1855 if (little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1856 {
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1857 if (write_error_characters_as_such &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1858 code >= UNICODE_ERROR_OCTET_RANGE_START &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1859 code < (UNICODE_ERROR_OCTET_RANGE_START + 0x100))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1860 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1861 Dynarr_add (dst, (unsigned char) ((code & 0xFF)));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1862 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1863 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1864 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1865 /* We generate and accept incorrect sequences here, which is
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1866 okay, in the interest of preservation of the user's
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1867 data. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1868 Dynarr_add (dst, (unsigned char) (code & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1869 Dynarr_add (dst, (unsigned char) ((code >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1870 Dynarr_add (dst, (unsigned char) ((code >> 16) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1871 Dynarr_add (dst, (unsigned char) (code >> 24));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1872 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1873 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1874 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1875 {
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1876 if (write_error_characters_as_such &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1877 code >= UNICODE_ERROR_OCTET_RANGE_START &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1878 code < (UNICODE_ERROR_OCTET_RANGE_START + 0x100))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1879 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1880 Dynarr_add (dst, (unsigned char) ((code & 0xFF)));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1881 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1882 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1883 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1884 /* We generate and accept incorrect sequences here, which is okay,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1885 in the interest of preservation of the user's data. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1886 Dynarr_add (dst, (unsigned char) (code >> 24));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1887 Dynarr_add (dst, (unsigned char) ((code >> 16) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1888 Dynarr_add (dst, (unsigned char) ((code >> 8) & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1889 Dynarr_add (dst, (unsigned char) (code & 255));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1890 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1891 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1892 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1893
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1894 case UNICODE_UTF_8:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1895 if (code <= 0x7f)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1896 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1897 Dynarr_add (dst, (unsigned char) code);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1898 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1899 else if (code <= 0x7ff)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1900 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1901 Dynarr_add (dst, (unsigned char) ((code >> 6) \| 0xc0));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1902 Dynarr_add (dst, (unsigned char) ((code & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1903 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1904 else if (code <= 0xffff)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1905 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1906 Dynarr_add (dst, (unsigned char) ((code >> 12) \| 0xe0));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1907 Dynarr_add (dst, (unsigned char) (((code >> 6) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1908 Dynarr_add (dst, (unsigned char) ((code & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1909 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1910 else if (code <= 0x1fffff)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1911 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1912 Dynarr_add (dst, (unsigned char) ((code >> 18) \| 0xf0));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1913 Dynarr_add (dst, (unsigned char) (((code >> 12) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1914 Dynarr_add (dst, (unsigned char) (((code >> 6) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1915 Dynarr_add (dst, (unsigned char) ((code & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1916 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1917 else if (code <= 0x3ffffff)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1918 {
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1919
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1920 #if !(UNICODE_ERROR_OCTET_RANGE_START > 0x1fffff \
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1921 && UNICODE_ERROR_OCTET_RANGE_START < 0x3ffffff)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1922 #error "This code needs to be rewritten. "
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1923 #endif
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1924 if (write_error_characters_as_such &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1925 code >= UNICODE_ERROR_OCTET_RANGE_START &&
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1926 code < (UNICODE_ERROR_OCTET_RANGE_START + 0x100))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1927 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1928 Dynarr_add (dst, (unsigned char) ((code & 0xFF)));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1929 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1930 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1931 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1932 Dynarr_add (dst, (unsigned char) ((code >> 24) \| 0xf8));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1933 Dynarr_add (dst, (unsigned char) (((code >> 18) & 0x3f) \| 0x80));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1934 Dynarr_add (dst, (unsigned char) (((code >> 12) & 0x3f) \| 0x80));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1935 Dynarr_add (dst, (unsigned char) (((code >> 6) & 0x3f) \| 0x80));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1936 Dynarr_add (dst, (unsigned char) ((code & 0x3f) \| 0x80));
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1937 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1938 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1939 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1940 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1941 Dynarr_add (dst, (unsigned char) ((code >> 30) \| 0xfc));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1942 Dynarr_add (dst, (unsigned char) (((code >> 24) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1943 Dynarr_add (dst, (unsigned char) (((code >> 18) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1944 Dynarr_add (dst, (unsigned char) (((code >> 12) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1945 Dynarr_add (dst, (unsigned char) (((code >> 6) & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1946 Dynarr_add (dst, (unsigned char) ((code & 0x3f) \| 0x80));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1947 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1948 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1949
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	1950 case UNICODE_UTF_7: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1951
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	1952 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1953 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1954 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1955
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1956 /* Also used in mule-coding.c for UTF-8 handling in ISO 2022-oriented
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1957 encodings. */
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	1958 void
2333 ba4677f54a05 [xemacs-hg @ 2004-10-14 17:26:18 by james] james parents: 2286 diff changeset	1959 encode_unicode_char (Lisp_Object USED_IF_MULE (charset), int h,
ba4677f54a05 [xemacs-hg @ 2004-10-14 17:26:18 by james] james parents: 2286 diff changeset	1960 int USED_IF_MULE (l), unsigned_char_dynarr *dst,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1961 enum unicode_type type, unsigned int little_endian,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1962 int write_error_characters_as_such)
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1963 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1964 #ifdef MULE
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	1965 int code = ichar_to_unicode (make_ichar (charset, h & 127, l & 127));
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1966
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1967 if (code == -1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1968 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1969 if (type != UNICODE_UTF_16 &&
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1970 XCHARSET_DIMENSION (charset) == 2 &&
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1971 XCHARSET_CHARS (charset) == 94)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1972 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1973 unsigned char final = XCHARSET_FINAL (charset);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1974
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1975 if (('@' <= final) && (final < 0x7f))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1976 code = (0xe00000 + (final - '@') * 94 * 94
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1977 + ((h & 127) - 33) * 94 + (l & 127) - 33);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1978 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1979 code = '?';
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1980 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1981 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1982 code = '?';
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1983 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1984 #else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1985 int code = h;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1986 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1987
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1988 encode_unicode_char_1 (code, dst, type, little_endian,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	1989 write_error_characters_as_such);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1990 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1991
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1992 static Bytecount
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1993 unicode_convert (struct coding_stream str, const UExtbyte src,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1994 unsigned_char_dynarr *dst, Bytecount n)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1995 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1996 unsigned int ch = str->ch;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1997 struct unicode_coding_stream *data = CODING_STREAM_TYPE_DATA (str, unicode);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1998 enum unicode_type type =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	1999 XCODING_SYSTEM_UNICODE_TYPE (str->codesys);
1887 1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	2000 unsigned int little_endian =
1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	2001 XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN (str->codesys);
1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	2002 unsigned int ignore_bom = XCODING_SYSTEM_UNICODE_NEED_BOM (str->codesys);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2003 Bytecount orign = n;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2004
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2005 if (str->direction == CODING_DECODE)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2006 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2007 unsigned char counter = data->counter;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2008 unsigned char indicated_length
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2009 = data->indicated_length;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2010
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2011 while (n--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2012 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2013 UExtbyte c = *src++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2014
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2015 switch (type)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2016 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2017 case UNICODE_UTF_8:
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2018 if (0 == counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2019 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2020 if (0 == (c & 0x80))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2021 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2022 /* ASCII. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2023 decode_unicode_char (c, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2024 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2025 else if (0 == (c & 0x40))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2026 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2027 /* Highest bit set, second highest not--there's
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2028 something wrong. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2029 DECODE_ERROR_OCTET (c, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2030 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2031 else if (0 == (c & 0x20))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2032 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2033 ch = c & 0x1f;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2034 counter = 1;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2035 indicated_length = 2;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2036 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2037 else if (0 == (c & 0x10))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2038 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2039 ch = c & 0x0f;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2040 counter = 2;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2041 indicated_length = 3;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2042 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2043 else if (0 == (c & 0x08))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2044 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2045 ch = c & 0x0f;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2046 counter = 3;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2047 indicated_length = 4;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2048 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2049 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2050 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2051 /* We don't supports lengths longer than 4 in
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2052 external-format data. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2053 DECODE_ERROR_OCTET (c, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2054
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2055 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2056 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2057 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2058 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2059 /* counter != 0 */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2060 if ((0 == (c & 0x80)) \|\| (0 != (c & 0x40)))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2061 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2062 indicate_invalid_utf_8(indicated_length,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2063 counter,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2064 ch, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2065 if (c & 0x80)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2066 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2067 DECODE_ERROR_OCTET (c, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2068 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2069 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2070 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2071 /* The character just read is ASCII. Treat it as
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2072 such. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2073 decode_unicode_char (c, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2074 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2075 ch = 0;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2076 counter = 0;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2077 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2078 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2079 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2080 ch = (ch << 6) \| (c & 0x3f);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2081 counter--;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2082 /* Just processed the final byte. Emit the character. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2083 if (!counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2084 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2085 /* Don't accept over-long sequences, surrogates,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2086 or codes above #x10FFFF. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2087 if ((ch < 0x80) \|\|
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2088 ((ch < 0x800) && indicated_length > 2) \|\|
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2089 ((ch < 0x10000) && indicated_length > 3) \|\|
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2090 valid_utf_16_surrogate(ch) \|\| (ch > 0x110000))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2091 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2092 indicate_invalid_utf_8(indicated_length,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2093 counter,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2094 ch, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2095 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2096 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2097 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2098 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2099 decode_unicode_char (ch, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2100 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2101 ch = 0;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2102 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2103 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2104 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2105 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2106
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2107 case UNICODE_UTF_16:
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2108
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2109 if (little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2110 ch = (c << counter) \| ch;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2111 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2112 ch = (ch << 8) \| c;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2113
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2114 counter += 8;
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2115
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2116 if (16 == counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2117 {
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2118 int tempch = ch;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2119
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2120 if (valid_utf_16_first_surrogate(ch))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2121 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2122 break;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2123 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2124 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2125 counter = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2126 decode_unicode_char (tempch, dst, data, ignore_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2127 }
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2128 else if (32 == counter)
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2129 {
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2130 int tempch;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2131
4583 2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2132 if (little_endian)
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2133 {
4583 2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2134 if (!valid_utf_16_last_surrogate(ch >> 16))
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2135 {
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2136 DECODE_ERROR_OCTET (ch & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2137 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2138 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2139 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2140 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2141 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2142 DECODE_ERROR_OCTET ((ch >> 24) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2143 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2144 }
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2145 else
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2146 {
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2147 tempch = utf_16_surrogates_to_code((ch & 0xffff),
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2148 (ch >> 16));
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2149 decode_unicode_char(tempch, dst, data, ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2150 }
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2151 }
4583 2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2152 else
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2153 {
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2154 if (!valid_utf_16_last_surrogate(ch & 0xFFFF))
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2155 {
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2156 DECODE_ERROR_OCTET ((ch >> 24) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2157 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2158 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2159 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2160 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2161 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2162 DECODE_ERROR_OCTET (ch & 0xFF, dst, data,
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2163 ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2164 }
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2165 else
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2166 {
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2167 tempch = utf_16_surrogates_to_code((ch >> 16),
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2168 (ch & 0xffff));
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2169 decode_unicode_char(tempch, dst, data, ignore_bom);
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2170 }
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2171 }
2669b1b7e33b Correct little-endian UTF-16 surrogate handling. Aidan Kehoe <kehoea@parhasard.net> parents: 4270 diff changeset	2172
3952 3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2173 ch = 0;
3584cb2c07db [xemacs-hg @ 2007-05-13 11:11:28 by aidan] aidan parents: 3767 diff changeset	2174 counter = 0;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2175 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2176 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2177 assert(8 == counter \|\| 24 == counter);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2178 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2179
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2180 case UNICODE_UCS_4:
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2181 case UNICODE_UTF_32:
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2182 if (little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2183 ch = (c << counter) \| ch;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2184 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2185 ch = (ch << 8) \| c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2186 counter += 8;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2187 if (counter == 32)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2188 {
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2189 if (ch > 0x10ffff)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2190 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2191 /* ch is not a legal Unicode character. We're fine
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2192 with that in UCS-4, though not in UTF-32. */
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2193 if (UNICODE_UCS_4 == type && ch < 0x80000000)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2194 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2195 decode_unicode_char (ch, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2196 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2197 else if (little_endian)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2198 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2199 DECODE_ERROR_OCTET (ch & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2200 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2201 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2202 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2203 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2204 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2205 DECODE_ERROR_OCTET ((ch >> 24) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2206 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2207 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2208 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2209 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2210 DECODE_ERROR_OCTET ((ch >> 24) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2211 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2212 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2213 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2214 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2215 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2216 DECODE_ERROR_OCTET (ch & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2217 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2218 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2219 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2220 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2221 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2222 decode_unicode_char (ch, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2223 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2224 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2225 counter = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2226 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2227 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2228
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2229 case UNICODE_UTF_7:
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	2230 ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2231 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2232
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	2233 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2234 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2235
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2236 }
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2237
4688 7e54adf407a1 Fix a bug with Unicode error sequences and very short input strings. Aidan Kehoe <kehoea@parhasard.net> parents: 4583 diff changeset	2238 if (str->eof && counter)
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2239 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2240 switch (type)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2241 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2242 case UNICODE_UTF_8:
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2243 indicate_invalid_utf_8(indicated_length,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2244 counter, ch, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2245 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2246 break;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2247
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2248 case UNICODE_UTF_16:
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2249 case UNICODE_UCS_4:
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2250 case UNICODE_UTF_32:
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2251 if (8 == counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2252 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2253 DECODE_ERROR_OCTET (ch, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2254 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2255 else if (16 == counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2256 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2257 if (little_endian)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2258 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2259 DECODE_ERROR_OCTET (ch & 0xFF, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2260 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2261 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2262 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2263 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2264 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2265 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2266 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2267 DECODE_ERROR_OCTET (ch & 0xFF, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2268 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2269 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2270 else if (24 == counter)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2271 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2272 if (little_endian)
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2273 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2274 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2275 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2276 DECODE_ERROR_OCTET (ch & 0xFF, dst, data, ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2277 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2278 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2279 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2280 else
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2281 {
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2282 DECODE_ERROR_OCTET ((ch >> 16) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2283 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2284 DECODE_ERROR_OCTET ((ch >> 8) & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2285 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2286 DECODE_ERROR_OCTET (ch & 0xFF, dst, data,
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2287 ignore_bom);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2288 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2289 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2290 else assert(0);
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2291 break;
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2292 }
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2293 ch = 0;
4688 7e54adf407a1 Fix a bug with Unicode error sequences and very short input strings. Aidan Kehoe <kehoea@parhasard.net> parents: 4583 diff changeset	2294 counter = 0;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2295 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2296
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2297 data->counter = counter;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2298 data->indicated_length = indicated_length;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2299 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2300 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2301 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2302 unsigned char char_boundary = data->current_char_boundary;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2303 Lisp_Object charset = data->current_charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2304
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2305 #ifdef ENABLE_COMPOSITE_CHARS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2306 /* flags for handling composite chars. We do a little switcheroo
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2307 on the source while we're outputting the composite char. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2308 Bytecount saved_n = 0;
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	2309 const Ibyte *saved_src = NULL;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2310 int in_composite = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2311
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2312 back_to_square_n:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2313 #endif /* ENABLE_COMPOSITE_CHARS */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2314
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2315 if (XCODING_SYSTEM_UNICODE_NEED_BOM (str->codesys) && !data->wrote_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2316 {
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2317 encode_unicode_char_1 (0xFEFF, dst, type, little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2318 data->wrote_bom = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2319 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2320
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2321 while (n--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2322 {
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	2323 Ibyte c = *src++;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2324
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2325 #ifdef MULE
826 6728e641994e [xemacs-hg @ 2002-05-05 11:30:15 by ben] ben parents: 800 diff changeset	2326 if (byte_ascii_p (c))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2327 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2328 { /* Processing ASCII character */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2329 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2330 encode_unicode_char (Vcharset_ascii, c, 0, dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2331 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2332
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2333 char_boundary = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2334 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2335 #ifdef MULE
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	2336 else if (ibyte_leading_byte_p (c) \|\| ibyte_leading_byte_p (ch))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2337 { /* Processing Leading Byte */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2338 ch = 0;
826 6728e641994e [xemacs-hg @ 2002-05-05 11:30:15 by ben] ben parents: 800 diff changeset	2339 charset = charset_by_leading_byte (c);
6728e641994e [xemacs-hg @ 2002-05-05 11:30:15 by ben] ben parents: 800 diff changeset	2340 if (leading_byte_prefix_p(c))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2341 ch = c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2342 char_boundary = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2343 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2344 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2345 { /* Processing Non-ASCII character */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2346 char_boundary = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2347 if (EQ (charset, Vcharset_control_1))
2704 114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2348 /* See:
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2349
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2350 (Info-goto-node "(internals)Internal String Encoding")
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2351
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2352 for the rationale behind subtracting #xa0 from the
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2353 character's code. */
114400ea911b [xemacs-hg @ 2005-03-31 14:56:37 by aidan] aidan parents: 2622 diff changeset	2354 encode_unicode_char (Vcharset_control_1, c - 0xa0, 0, dst,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2355 type, little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2356 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2357 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2358 switch (XCHARSET_REP_BYTES (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2359 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2360 case 2:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2361 encode_unicode_char (charset, c, 0, dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2362 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2363 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2364 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2365 if (XCHARSET_PRIVATE_P (charset))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2366 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2367 encode_unicode_char (charset, c, 0, dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2368 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2369 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2370 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2371 else if (ch)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2372 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2373 #ifdef ENABLE_COMPOSITE_CHARS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2374 if (EQ (charset, Vcharset_composite))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2375 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2376 if (in_composite)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2377 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2378 /* #### Bother! We don't know how to
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2379 handle this yet. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2380 encode_unicode_char (Vcharset_ascii, '~', 0,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2381 dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2382 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2383 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2384 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2385 {
867 804517e16990 [xemacs-hg @ 2002-06-05 09:54:39 by ben] ben parents: 826 diff changeset	2386 Ichar emch = make_ichar (Vcharset_composite,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2387 ch & 0x7F,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2388 c & 0x7F);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2389 Lisp_Object lstr =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2390 composite_char_string (emch);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2391 saved_n = n;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2392 saved_src = src;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2393 in_composite = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2394 src = XSTRING_DATA (lstr);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2395 n = XSTRING_LENGTH (lstr);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2396 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2397 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2398 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2399 #endif /* ENABLE_COMPOSITE_CHARS */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2400 encode_unicode_char (charset, ch, c, dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2401 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2402 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2403 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2404 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2405 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2406 ch = c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2407 char_boundary = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2408 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2409 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2410 case 4:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2411 if (ch)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2412 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2413 encode_unicode_char (charset, ch, c, dst, type,
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2414 little_endian, 1);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2415 ch = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2416 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2417 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2418 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2419 ch = c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2420 char_boundary = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2421 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2422 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2423 default:
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	2424 ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2425 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2426 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2427 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2428 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2429 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2430
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2431 #ifdef ENABLE_COMPOSITE_CHARS
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2432 if (in_composite)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2433 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2434 n = saved_n;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2435 src = saved_src;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2436 in_composite = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2437 goto back_to_square_n; /* Wheeeeeeeee ..... */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2438 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2439 #endif /* ENABLE_COMPOSITE_CHARS */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2440
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2441 data->current_char_boundary = char_boundary;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2442 data->current_charset = charset;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2443
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2444 /* La palabra se hizo carne! */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2445 /* A palavra fez-se carne! */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2446 /* Whatever. */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2447 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2448
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2449 str->ch = ch;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2450 return orign;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2451 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2452
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2453 /* DEFINE_DETECTOR (utf_7); */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2454 DEFINE_DETECTOR (utf_8);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2455 DEFINE_DETECTOR_CATEGORY (utf_8, utf_8);
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2456 DEFINE_DETECTOR_CATEGORY (utf_8, utf_8_bom);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2457 DEFINE_DETECTOR (ucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2458 DEFINE_DETECTOR_CATEGORY (ucs_4, ucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2459 DEFINE_DETECTOR (utf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2460 DEFINE_DETECTOR_CATEGORY (utf_16, utf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2461 DEFINE_DETECTOR_CATEGORY (utf_16, utf_16_little_endian);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2462 DEFINE_DETECTOR_CATEGORY (utf_16, utf_16_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2463 DEFINE_DETECTOR_CATEGORY (utf_16, utf_16_little_endian_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2464
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2465 struct ucs_4_detector
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2466 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2467 int in_ucs_4_byte;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2468 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2469
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2470 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2471 ucs_4_detect (struct detection_state st, const UExtbyte src,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2472 Bytecount n)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2473 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2474 struct ucs_4_detector *data = DETECTION_STATE_DATA (st, ucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2475
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2476 while (n--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2477 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2478 UExtbyte c = *src++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2479 switch (data->in_ucs_4_byte)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2480 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2481 case 0:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2482 if (c >= 128)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2483 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2484 DET_RESULT (st, ucs_4) = DET_NEARLY_IMPOSSIBLE;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2485 return;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2486 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2487 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2488 data->in_ucs_4_byte++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2489 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2490 case 3:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2491 data->in_ucs_4_byte = 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2492 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2493 default:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2494 data->in_ucs_4_byte++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2495 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2496 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2497
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2498 /* !!#### write this for real */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2499 DET_RESULT (st, ucs_4) = DET_AS_LIKELY_AS_UNLIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2500 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2501
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2502 struct utf_16_detector
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2503 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2504 unsigned int seen_ffff:1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2505 unsigned int seen_forward_bom:1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2506 unsigned int seen_rev_bom:1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2507 int byteno;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2508 int prev_char;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2509 int text, rev_text;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2510 int sep, rev_sep;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2511 int num_ascii;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2512 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2513
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2514 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2515 utf_16_detect (struct detection_state st, const UExtbyte src,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2516 Bytecount n)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2517 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2518 struct utf_16_detector *data = DETECTION_STATE_DATA (st, utf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2519
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2520 while (n--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2521 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2522 UExtbyte c = *src++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2523 int prevc = data->prev_char;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2524 if (data->byteno == 1 && c == 0xFF && prevc == 0xFE)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2525 data->seen_forward_bom = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2526 else if (data->byteno == 1 && c == 0xFE && prevc == 0xFF)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2527 data->seen_rev_bom = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2528
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2529 if (data->byteno & 1)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2530 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2531 if (c == 0xFF && prevc == 0xFF)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2532 data->seen_ffff = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2533 if (prevc == 0
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2534 && (c == '\r' \|\| c == '\n'
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2535 \|\| (c >= 0x20 && c <= 0x7E)))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2536 data->text++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2537 if (c == 0
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2538 && (prevc == '\r' \|\| prevc == '\n'
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2539 \|\| (prevc >= 0x20 && prevc <= 0x7E)))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2540 data->rev_text++;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2541 /* #### 0x2028 is LINE SEPARATOR and 0x2029 is PARAGRAPH SEPARATOR.
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2542 I used to count these in text and rev_text but that is very bad,
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2543 as 0x2028 is also space + left-paren in ASCII, which is extremely
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2544 common. So, what do we do with these? */
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2545 if (prevc == 0x20 && (c == 0x28 \|\| c == 0x29))
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2546 data->sep++;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2547 if (c == 0x20 && (prevc == 0x28 \|\| prevc == 0x29))
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2548 data->rev_sep++;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2549 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2550
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2551 if ((c >= ' ' && c <= '~') \|\| c == '\n' \|\| c == '\r' \|\| c == '\t' \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2552 c == '\f' \|\| c == '\v')
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2553 data->num_ascii++;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2554 data->byteno++;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2555 data->prev_char = c;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2556 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2557
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2558 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2559 int variance_indicates_big_endian =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2560 (data->text >= 10
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2561 && (data->rev_text == 0
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2562 \|\| data->text / data->rev_text >= 10));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2563 int variance_indicates_little_endian =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2564 (data->rev_text >= 10
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2565 && (data->text == 0
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2566 \|\| data->rev_text / data->text >= 10));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2567
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2568 if (data->seen_ffff)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2569 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2570 else if (data->seen_forward_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2571 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2572 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2573 if (variance_indicates_big_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2574 DET_RESULT (st, utf_16_bom) = DET_NEAR_CERTAINTY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2575 else if (variance_indicates_little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2576 DET_RESULT (st, utf_16_bom) = DET_SOMEWHAT_LIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2577 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2578 DET_RESULT (st, utf_16_bom) = DET_QUITE_PROBABLE;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2579 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2580 else if (data->seen_forward_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2581 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2582 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2583 if (variance_indicates_big_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2584 DET_RESULT (st, utf_16_bom) = DET_NEAR_CERTAINTY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2585 else if (variance_indicates_little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2586 /* #### may need to rethink */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2587 DET_RESULT (st, utf_16_bom) = DET_SOMEWHAT_LIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2588 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2589 /* #### may need to rethink */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2590 DET_RESULT (st, utf_16_bom) = DET_QUITE_PROBABLE;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2591 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2592 else if (data->seen_rev_bom)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2593 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2594 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2595 if (variance_indicates_little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2596 DET_RESULT (st, utf_16_little_endian_bom) = DET_NEAR_CERTAINTY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2597 else if (variance_indicates_big_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2598 /* #### may need to rethink */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2599 DET_RESULT (st, utf_16_little_endian_bom) = DET_SOMEWHAT_LIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2600 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2601 /* #### may need to rethink */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2602 DET_RESULT (st, utf_16_little_endian_bom) = DET_QUITE_PROBABLE;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2603 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2604 else if (variance_indicates_big_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2605 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2606 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2607 DET_RESULT (st, utf_16) = DET_SOMEWHAT_LIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2608 DET_RESULT (st, utf_16_little_endian) = DET_SOMEWHAT_UNLIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2609 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2610 else if (variance_indicates_little_endian)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2611 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2612 SET_DET_RESULTS (st, utf_16, DET_NEARLY_IMPOSSIBLE);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2613 DET_RESULT (st, utf_16) = DET_SOMEWHAT_UNLIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2614 DET_RESULT (st, utf_16_little_endian) = DET_SOMEWHAT_LIKELY;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2615 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2616 else
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2617 {
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2618 /* #### FUCKME! There should really be an ASCII detector. This
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2619 would rule out the need to have this built-in here as
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2620 well. --ben */
1292 f3437b56874d [xemacs-hg @ 2003-02-13 09:57:04 by ben] ben parents: 1267 diff changeset	2621 int pct_ascii = data->byteno ? (100 * data->num_ascii) / data->byteno
f3437b56874d [xemacs-hg @ 2003-02-13 09:57:04 by ben] ben parents: 1267 diff changeset	2622 : 100;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2623
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2624 if (pct_ascii > 90)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2625 SET_DET_RESULTS (st, utf_16, DET_QUITE_IMPROBABLE);
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2626 else if (pct_ascii > 75)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2627 SET_DET_RESULTS (st, utf_16, DET_SOMEWHAT_UNLIKELY);
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2628 else
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2629 SET_DET_RESULTS (st, utf_16, DET_AS_LIKELY_AS_UNLIKELY);
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2630 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2631 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2632 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2633
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2634 struct utf_8_detector
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2635 {
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2636 int byteno;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2637 int first_byte;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2638 int second_byte;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2639 int prev_byte;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2640 int in_utf_8_byte;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2641 int recent_utf_8_sequence;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2642 int seen_bogus_utf8;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2643 int seen_really_bogus_utf8;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2644 int seen_2byte_sequence;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2645 int seen_longer_sequence;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2646 int seen_iso2022_esc;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2647 int seen_iso_shift;
1887 1e5b7843dfa0 [xemacs-hg @ 2004-01-27 17:55:15 by james] james parents: 1726 diff changeset	2648 unsigned int seen_utf_bom:1;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2649 };
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2650
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2651 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2652 utf_8_detect (struct detection_state st, const UExtbyte src,
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2653 Bytecount n)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2654 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2655 struct utf_8_detector *data = DETECTION_STATE_DATA (st, utf_8);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2656
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2657 while (n--)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2658 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2659 UExtbyte c = *src++;
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2660 switch (data->byteno)
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2661 {
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2662 case 0:
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2663 data->first_byte = c;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2664 break;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2665 case 1:
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2666 data->second_byte = c;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2667 break;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2668 case 2:
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2669 if (data->first_byte == 0xef &&
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2670 data->second_byte == 0xbb &&
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2671 c == 0xbf)
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2672 data->seen_utf_bom = 1;
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2673 break;
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2674 }
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2675
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2676 switch (data->in_utf_8_byte)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2677 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2678 case 0:
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2679 if (data->prev_byte == ISO_CODE_ESC && c >= 0x28 && c <= 0x2F)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2680 data->seen_iso2022_esc++;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2681 else if (c == ISO_CODE_SI \|\| c == ISO_CODE_SO)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2682 data->seen_iso_shift++;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2683 else if (c >= 0xfc)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2684 data->in_utf_8_byte = 5;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2685 else if (c >= 0xf8)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2686 data->in_utf_8_byte = 4;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2687 else if (c >= 0xf0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2688 data->in_utf_8_byte = 3;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2689 else if (c >= 0xe0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2690 data->in_utf_8_byte = 2;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2691 else if (c >= 0xc0)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2692 data->in_utf_8_byte = 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2693 else if (c >= 0x80)
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2694 data->seen_bogus_utf8++;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2695 if (data->in_utf_8_byte > 0)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2696 data->recent_utf_8_sequence = data->in_utf_8_byte;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2697 break;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2698 default:
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2699 if ((c & 0xc0) != 0x80)
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2700 data->seen_really_bogus_utf8++;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2701 else
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2702 {
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2703 data->in_utf_8_byte--;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2704 if (data->in_utf_8_byte == 0)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2705 {
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2706 if (data->recent_utf_8_sequence == 1)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2707 data->seen_2byte_sequence++;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2708 else
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2709 {
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2710 assert (data->recent_utf_8_sequence >= 2);
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2711 data->seen_longer_sequence++;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2712 }
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2713 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2714 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2715 }
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2716
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	2717 data->byteno++;
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2718 data->prev_byte = c;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2719 }
1267 c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2720
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2721 /* either BOM or no BOM, but not both */
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2722 SET_DET_RESULTS (st, utf_8, DET_NEARLY_IMPOSSIBLE);
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2723
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2724
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2725 if (data->seen_utf_bom)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2726 DET_RESULT (st, utf_8_bom) = DET_NEAR_CERTAINTY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2727 else
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2728 {
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2729 if (data->seen_really_bogus_utf8 \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2730 data->seen_bogus_utf8 >= 2)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2731 ; /* bogus */
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2732 else if (data->seen_bogus_utf8)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2733 DET_RESULT (st, utf_8) = DET_SOMEWHAT_UNLIKELY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2734 else if ((data->seen_longer_sequence >= 5 \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2735 data->seen_2byte_sequence >= 10) &&
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2736 (!(data->seen_iso2022_esc + data->seen_iso_shift) \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2737 (data->seen_longer_sequence * 2 + data->seen_2byte_sequence) /
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2738 (data->seen_iso2022_esc + data->seen_iso_shift) >= 10))
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2739 /* heuristics, heuristics, we love heuristics */
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2740 DET_RESULT (st, utf_8) = DET_QUITE_PROBABLE;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2741 else if (data->seen_iso2022_esc \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2742 data->seen_iso_shift >= 3)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2743 DET_RESULT (st, utf_8) = DET_SOMEWHAT_UNLIKELY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2744 else if (data->seen_longer_sequence \|\|
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2745 data->seen_2byte_sequence)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2746 DET_RESULT (st, utf_8) = DET_SOMEWHAT_LIKELY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2747 else if (data->seen_iso_shift)
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2748 DET_RESULT (st, utf_8) = DET_SOMEWHAT_UNLIKELY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2749 else
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2750 DET_RESULT (st, utf_8) = DET_AS_LIKELY_AS_UNLIKELY;
c57f32e44416 [xemacs-hg @ 2003-02-07 01:43:05 by ben] ben parents: 1204 diff changeset	2751 }
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2752 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2753
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2754 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2755 unicode_init_coding_stream (struct coding_stream *str)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2756 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2757 struct unicode_coding_stream *data =
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2758 CODING_STREAM_TYPE_DATA (str, unicode);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2759 xzero (*data);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2760 data->current_charset = Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2761 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2762
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2763 static void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2764 unicode_rewind_coding_stream (struct coding_stream *str)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2765 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2766 unicode_init_coding_stream (str);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2767 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2768
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2769 static int
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2770 unicode_putprop (Lisp_Object codesys, Lisp_Object key, Lisp_Object value)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2771 {
3767 6b2ef948e140 [xemacs-hg @ 2006-12-29 18:09:38 by aidan] aidan parents: 3659 diff changeset	2772 if (EQ (key, Qunicode_type))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2773 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2774 enum unicode_type type;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2775
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2776 if (EQ (value, Qutf_8))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2777 type = UNICODE_UTF_8;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2778 else if (EQ (value, Qutf_16))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2779 type = UNICODE_UTF_16;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2780 else if (EQ (value, Qutf_7))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2781 type = UNICODE_UTF_7;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2782 else if (EQ (value, Qucs_4))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2783 type = UNICODE_UCS_4;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2784 else if (EQ (value, Qutf_32))
1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2785 type = UNICODE_UTF_32;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2786 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2787 invalid_constant ("Invalid Unicode type", key);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2788
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2789 XCODING_SYSTEM_UNICODE_TYPE (codesys) = type;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2790 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2791 else if (EQ (key, Qlittle_endian))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2792 XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN (codesys) = !NILP (value);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2793 else if (EQ (key, Qneed_bom))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2794 XCODING_SYSTEM_UNICODE_NEED_BOM (codesys) = !NILP (value);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2795 else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2796 return 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2797 return 1;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2798 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2799
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2800 static Lisp_Object
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2801 unicode_getprop (Lisp_Object coding_system, Lisp_Object prop)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2802 {
3767 6b2ef948e140 [xemacs-hg @ 2006-12-29 18:09:38 by aidan] aidan parents: 3659 diff changeset	2803 if (EQ (prop, Qunicode_type))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2804 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2805 switch (XCODING_SYSTEM_UNICODE_TYPE (coding_system))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2806 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2807 case UNICODE_UTF_16: return Qutf_16;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2808 case UNICODE_UTF_8: return Qutf_8;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2809 case UNICODE_UTF_7: return Qutf_7;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2810 case UNICODE_UCS_4: return Qucs_4;
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	2811 case UNICODE_UTF_32: return Qutf_32;
2500 3d8143fc88e1 [xemacs-hg @ 2005-01-24 23:33:30 by ben] ben parents: 2367 diff changeset	2812 default: ABORT ();
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2813 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2814 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2815 else if (EQ (prop, Qlittle_endian))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2816 return XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN (coding_system) ? Qt : Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2817 else if (EQ (prop, Qneed_bom))
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2818 return XCODING_SYSTEM_UNICODE_NEED_BOM (coding_system) ? Qt : Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2819 return Qunbound;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2820 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2821
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2822 static void
2286 04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	2823 unicode_print (Lisp_Object cs, Lisp_Object printcharfun,
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	2824 int UNUSED (escapeflag))
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2825 {
3767 6b2ef948e140 [xemacs-hg @ 2006-12-29 18:09:38 by aidan] aidan parents: 3659 diff changeset	2826 write_fmt_string_lisp (printcharfun, "(%s", 1,
6b2ef948e140 [xemacs-hg @ 2006-12-29 18:09:38 by aidan] aidan parents: 3659 diff changeset	2827 unicode_getprop (cs, Qunicode_type));
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2828 if (XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN (cs))
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	2829 write_ascstring (printcharfun, ", little-endian");
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2830 if (XCODING_SYSTEM_UNICODE_NEED_BOM (cs))
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	2831 write_ascstring (printcharfun, ", need-bom");
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	2832 write_ascstring (printcharfun, ")");
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2833 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	2834
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2835 #ifdef MULE
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2836 DEFUN ("set-unicode-query-skip-chars-args", Fset_unicode_query_skip_chars_args,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2837 3, 3, 0, /*
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2838 Specify strings as matching characters known to Unicode coding systems.
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2839
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2840 QUERY-STRING is a string matching characters that can unequivocally be
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2841 encoded by the Unicode coding systems.
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2842
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2843 INVALID-STRING is a string to match XEmacs characters that represent known
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2844 octets on disk, but that are invalid sequences according to Unicode.
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2845
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2846 UTF-8-INVALID-STRING is a more restrictive string to match XEmacs characters
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2847 that are invalid UTF-8 octets.
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2848
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2849 All three strings are in the format accepted by `skip-chars-forward'.
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2850 */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2851 (query_string, invalid_string, utf_8_invalid_string))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2852 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2853 CHECK_STRING (query_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2854 CHECK_STRING (invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2855 CHECK_STRING (utf_8_invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2856
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2857 Vunicode_query_string = query_string;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2858 Vunicode_invalid_string = invalid_string;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2859 Vutf_8_invalid_string = utf_8_invalid_string;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2860
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2861 return Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2862 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2863
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2864 static void
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2865 add_lisp_string_to_skip_chars_range (Lisp_Object string, Lisp_Object rtab,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2866 Lisp_Object value)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2867 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2868 Ibyte p, pend;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2869 Ichar c;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2870
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2871 p = XSTRING_DATA (string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2872 pend = p + XSTRING_LENGTH (string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2873
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2874 while (p != pend)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2875 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2876 c = itext_ichar (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2877
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2878 INC_IBYTEPTR (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2879
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2880 if (c == '\\')
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2881 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2882 if (p == pend) break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2883 c = itext_ichar (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2884 INC_IBYTEPTR (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2885 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2886
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2887 if (p != pend && *p == '-')
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2888 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2889 Ichar cend;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2890
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2891 /* Skip over the dash. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2892 p++;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2893 if (p == pend) break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2894 cend = itext_ichar (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2895
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2896 Fput_range_table (make_int (c), make_int (cend), value,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2897 rtab);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2898
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2899 INC_IBYTEPTR (p);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2900 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2901 else
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2902 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2903 Fput_range_table (make_int (c), make_int (c), value, rtab);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2904 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2905 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2906 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2907
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2908 /* This function wouldn't be necessary if initialised range tables were
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2909 dumped properly; see
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2910 http://mid.gmane.org/18179.49815.622843.336527@parhasard.net . */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2911 static void
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2912 initialize_unicode_query_range_tables_from_strings (void)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2913 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2914 CHECK_STRING (Vunicode_query_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2915 CHECK_STRING (Vunicode_invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2916 CHECK_STRING (Vutf_8_invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2917
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2918 Vunicode_query_skip_chars = Fmake_range_table (Qstart_closed_end_closed);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2919
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2920 add_lisp_string_to_skip_chars_range (Vunicode_query_string,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2921 Vunicode_query_skip_chars,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2922 Qsucceeded);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2923
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2924 Vunicode_invalid_and_query_skip_chars
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2925 = Fcopy_range_table (Vunicode_query_skip_chars);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2926
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2927 add_lisp_string_to_skip_chars_range (Vunicode_invalid_string,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2928 Vunicode_invalid_and_query_skip_chars,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2929 Qinvalid_sequence);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2930
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2931 Vutf_8_invalid_and_query_skip_chars
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2932 = Fcopy_range_table (Vunicode_query_skip_chars);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2933
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2934 add_lisp_string_to_skip_chars_range (Vutf_8_invalid_string,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2935 Vutf_8_invalid_and_query_skip_chars,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2936 Qinvalid_sequence);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2937 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2938
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2939 static Lisp_Object
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2940 unicode_query (Lisp_Object codesys, struct buffer *buf, Charbpos end,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2941 int flags)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2942 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2943 Charbpos pos = BUF_PT (buf), fail_range_start, fail_range_end;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2944 Charbpos pos_byte = BYTE_BUF_PT (buf);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2945 Lisp_Object skip_chars_range_table, result = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2946 enum query_coding_failure_reasons failed_reason,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2947 previous_failed_reason = query_coding_succeeded;
4824 c12b646d84ee changes to get things to compile under latest cygwin Ben Wing <ben@xemacs.org> parents: 4770 diff changeset	2948 int checked_unicode,
c12b646d84ee changes to get things to compile under latest cygwin Ben Wing <ben@xemacs.org> parents: 4770 diff changeset	2949 invalid_lower_limit = UNICODE_ERROR_OCTET_RANGE_START,
c12b646d84ee changes to get things to compile under latest cygwin Ben Wing <ben@xemacs.org> parents: 4770 diff changeset	2950 invalid_upper_limit = -1,
c12b646d84ee changes to get things to compile under latest cygwin Ben Wing <ben@xemacs.org> parents: 4770 diff changeset	2951 unicode_type = XCODING_SYSTEM_UNICODE_TYPE (codesys);
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2952
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2953 if (flags & QUERY_METHOD_HIGHLIGHT &&
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2954 /* If we're being called really early, live without highlights getting
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2955 cleared properly: */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2956 !(UNBOUNDP (XSYMBOL (Qquery_coding_clear_highlights)->function)))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2957 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2958 /* It's okay to call Lisp here, the only non-stack object we may have
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2959 allocated up to this point is skip_chars_range_table, and that's
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2960 reachable from its entry in Vfixed_width_query_ranges_cache. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2961 call3 (Qquery_coding_clear_highlights, make_int (pos), make_int (end),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2962 wrap_buffer (buf));
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2963 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2964
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2965 if (NILP (Vunicode_query_skip_chars))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2966 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2967 initialize_unicode_query_range_tables_from_strings();
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2968 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2969
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2970 if (flags & QUERY_METHOD_IGNORE_INVALID_SEQUENCES)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2971 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2972 switch (unicode_type)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2973 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2974 case UNICODE_UTF_8:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2975 skip_chars_range_table = Vutf_8_invalid_and_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2976 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2977 case UNICODE_UTF_7:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2978 /* #### See above. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2979 return Qunbound;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2980 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2981 default:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2982 skip_chars_range_table = Vunicode_invalid_and_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2983 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2984 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2985 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2986 else
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2987 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2988 switch (unicode_type)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2989 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2990 case UNICODE_UTF_8:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2991 invalid_lower_limit = UNICODE_ERROR_OCTET_RANGE_START + 0x80;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2992 invalid_upper_limit = UNICODE_ERROR_OCTET_RANGE_START + 0xFF;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2993 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2994 case UNICODE_UTF_7:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2995 /* #### Work out what to do here in reality, read the spec and decide
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2996 which octets are invalid. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2997 return Qunbound;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2998 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	2999 default:
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3000 invalid_lower_limit = UNICODE_ERROR_OCTET_RANGE_START;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3001 invalid_upper_limit = UNICODE_ERROR_OCTET_RANGE_START + 0xFF;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3002 break;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3003 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3004
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3005 skip_chars_range_table = Vunicode_query_skip_chars;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3006 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3007
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3008 while (pos < end)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3009 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3010 Ichar ch = BYTE_BUF_FETCH_CHAR (buf, pos_byte);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3011 if ((ch < 0x100 ? 1 :
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3012 (!EQ (Qnil, Fget_range_table (make_int (ch), skip_chars_range_table,
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3013 Qnil)))))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3014 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3015 pos++;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3016 INC_BYTEBPOS (buf, pos_byte);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3017 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3018 else
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3019 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3020 fail_range_start = pos;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3021 while ((pos < end) &&
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3022 ((checked_unicode = ichar_to_unicode (ch),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3023 -1 == checked_unicode
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3024 && (failed_reason = query_coding_unencodable))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3025 \|\| (!(flags & QUERY_METHOD_IGNORE_INVALID_SEQUENCES) &&
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3026 (invalid_lower_limit <= checked_unicode) &&
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3027 (checked_unicode <= invalid_upper_limit)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3028 && (failed_reason = query_coding_invalid_sequence)))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3029 && (previous_failed_reason == query_coding_succeeded
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3030 \|\| previous_failed_reason == failed_reason))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3031 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3032 pos++;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3033 INC_BYTEBPOS (buf, pos_byte);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3034 ch = BYTE_BUF_FETCH_CHAR (buf, pos_byte);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3035 previous_failed_reason = failed_reason;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3036 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3037
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3038 if (fail_range_start == pos)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3039 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3040 /* The character can actually be encoded; move on. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3041 pos++;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3042 INC_BYTEBPOS (buf, pos_byte);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3043 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3044 else
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3045 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3046 assert (previous_failed_reason == query_coding_invalid_sequence
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3047 \|\| previous_failed_reason == query_coding_unencodable);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3048
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3049 if (flags & QUERY_METHOD_ERRORP)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3050 {
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3051 signal_error_2
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3052 (Qtext_conversion_error,
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3053 "Cannot encode using coding system",
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3054 make_string_from_buffer (buf, fail_range_start,
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3055 pos - fail_range_start),
19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3056 XCODING_SYSTEM_NAME (codesys));
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3057 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3058
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3059 if (NILP (result))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3060 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3061 result = Fmake_range_table (Qstart_closed_end_open);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3062 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3063
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3064 fail_range_end = pos;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3065
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3066 Fput_range_table (make_int (fail_range_start),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3067 make_int (fail_range_end),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3068 (previous_failed_reason
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3069 == query_coding_unencodable ?
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3070 Qunencodable : Qinvalid_sequence),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3071 result);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3072 previous_failed_reason = query_coding_succeeded;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3073
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3074 if (flags & QUERY_METHOD_HIGHLIGHT)
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3075 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3076 Lisp_Object extent
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3077 = Fmake_extent (make_int (fail_range_start),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3078 make_int (fail_range_end),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3079 wrap_buffer (buf));
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3080
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3081 Fset_extent_priority
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3082 (extent, make_int (2 + mouse_highlight_priority));
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3083 Fset_extent_face (extent, Qquery_coding_warning_face);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3084 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3085 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3086 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3087 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3088
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3089 return result;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3090 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3091 #else /* !MULE */
4770 b9aaf2a18957 Add missing return value type to unicode_query. Stephen J. Turnbull <stephen@xemacs.org> parents: 4690 diff changeset	3092 static Lisp_Object
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3093 unicode_query (Lisp_Object UNUSED (codesys),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3094 struct buffer * UNUSED (buf),
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3095 Charbpos UNUSED (end), int UNUSED (flags))
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3096 {
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3097 return Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3098 }
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3099 #endif
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3100
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3101 int
2286 04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3102 dfc_coding_system_is_unicode (
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3103 #ifdef WIN32_ANY
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3104 Lisp_Object codesys
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3105 #else
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3106 Lisp_Object UNUSED (codesys)
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3107 #endif
04bc9d2f42c7 [xemacs-hg @ 2004-09-20 19:18:55 by james] james parents: 1887 diff changeset	3108 )
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3109 {
1315 70921960b980 [xemacs-hg @ 2003-02-20 08:19:28 by ben] ben parents: 1292 diff changeset	3110 #ifdef WIN32_ANY
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3111 codesys = Fget_coding_system (codesys);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3112 return (EQ (XCODING_SYSTEM_TYPE (codesys), Qunicode) &&
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3113 XCODING_SYSTEM_UNICODE_TYPE (codesys) == UNICODE_UTF_16 &&
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3114 XCODING_SYSTEM_UNICODE_LITTLE_ENDIAN (codesys));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3115
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3116 #else
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3117 return 0;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3118 #endif
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3119 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3120
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3121
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3122 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3123 /* Initialization */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3124 /************************************************************************/
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3125
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3126 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3127 syms_of_unicode (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3128 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3129 #ifdef MULE
877 e54d47b2d736 [xemacs-hg @ 2002-06-23 09:54:35 by stephent] stephent parents: 872 diff changeset	3130 DEFSUBR (Funicode_precedence_list);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3131 DEFSUBR (Fset_language_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3132 DEFSUBR (Flanguage_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3133 DEFSUBR (Fset_default_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3134 DEFSUBR (Fdefault_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3135 DEFSUBR (Fset_unicode_conversion);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3136
1318 b531bf8658e9 [xemacs-hg @ 2003-02-21 06:56:46 by ben] ben parents: 1315 diff changeset	3137 DEFSUBR (Fload_unicode_mapping_table);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3138
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3139 DEFSUBR (Fset_unicode_query_skip_chars_args);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3140
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	3141 DEFSYMBOL (Qccl_encode_to_ucs_2);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	3142 DEFSYMBOL (Qlast_allocated_character);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3143 DEFSYMBOL (Qignore_first_column);
3659 98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3144
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3145 DEFSYMBOL (Qunicode_registries);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3146 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3147
800 a5954632b187 [xemacs-hg @ 2002-03-31 08:27:14 by ben] ben parents: 793 diff changeset	3148 DEFSUBR (Fchar_to_unicode);
a5954632b187 [xemacs-hg @ 2002-03-31 08:27:14 by ben] ben parents: 793 diff changeset	3149 DEFSUBR (Funicode_to_char);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3150
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3151 DEFSYMBOL (Qunicode);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3152 DEFSYMBOL (Qucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3153 DEFSYMBOL (Qutf_16);
4096 1abf84db2c7f [xemacs-hg @ 2007-08-04 20:00:10 by aidan] aidan parents: 3952 diff changeset	3154 DEFSYMBOL (Qutf_32);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3155 DEFSYMBOL (Qutf_8);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3156 DEFSYMBOL (Qutf_7);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3157
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3158 DEFSYMBOL (Qneed_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3159
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3160 DEFSYMBOL (Qutf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3161 DEFSYMBOL (Qutf_16_little_endian);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3162 DEFSYMBOL (Qutf_16_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3163 DEFSYMBOL (Qutf_16_little_endian_bom);
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	3164
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	3165 DEFSYMBOL (Qutf_8);
7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	3166 DEFSYMBOL (Qutf_8_bom);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3167 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3168
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3169 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3170 coding_system_type_create_unicode (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3171 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3172 INITIALIZE_CODING_SYSTEM_TYPE_WITH_DATA (unicode, "unicode-coding-system-p");
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3173 CODING_SYSTEM_HAS_METHOD (unicode, print);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3174 CODING_SYSTEM_HAS_METHOD (unicode, convert);
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3175 CODING_SYSTEM_HAS_METHOD (unicode, query);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3176 CODING_SYSTEM_HAS_METHOD (unicode, init_coding_stream);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3177 CODING_SYSTEM_HAS_METHOD (unicode, rewind_coding_stream);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3178 CODING_SYSTEM_HAS_METHOD (unicode, putprop);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3179 CODING_SYSTEM_HAS_METHOD (unicode, getprop);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3180
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3181 INITIALIZE_DETECTOR (utf_8);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3182 DETECTOR_HAS_METHOD (utf_8, detect);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3183 INITIALIZE_DETECTOR_CATEGORY (utf_8, utf_8);
985 7f62a956b825 [xemacs-hg @ 2002-09-01 06:41:40 by youngs] youngs parents: 893 diff changeset	3184 INITIALIZE_DETECTOR_CATEGORY (utf_8, utf_8_bom);
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3185
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3186 INITIALIZE_DETECTOR (ucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3187 DETECTOR_HAS_METHOD (ucs_4, detect);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3188 INITIALIZE_DETECTOR_CATEGORY (ucs_4, ucs_4);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3189
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3190 INITIALIZE_DETECTOR (utf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3191 DETECTOR_HAS_METHOD (utf_16, detect);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3192 INITIALIZE_DETECTOR_CATEGORY (utf_16, utf_16);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3193 INITIALIZE_DETECTOR_CATEGORY (utf_16, utf_16_little_endian);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3194 INITIALIZE_DETECTOR_CATEGORY (utf_16, utf_16_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3195 INITIALIZE_DETECTOR_CATEGORY (utf_16, utf_16_little_endian_bom);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3196 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3197
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3198 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3199 reinit_coding_system_type_create_unicode (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3200 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3201 REINITIALIZE_CODING_SYSTEM_TYPE (unicode);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3202 }
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3203
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3204 void
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3205 vars_of_unicode (void)
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3206 {
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3207 Fprovide (intern ("unicode"));
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3208
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3209 #ifdef MULE
4270 bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3210 staticpro (&Vnumber_of_jit_charsets);
bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3211 Vnumber_of_jit_charsets = make_int (0);
bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3212 staticpro (&Vlast_jit_charset_final);
bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3213 Vlast_jit_charset_final = make_char (0x30);
bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3214 staticpro (&Vcharset_descr);
bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3215 Vcharset_descr
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3216 = build_defer_string ("Mule charset for otherwise unknown Unicode code points.");
4270 bd9b678f4db7 [xemacs-hg @ 2007-11-15 10:05:14 by aidan] aidan parents: 4268 diff changeset	3217
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3218 staticpro (&Vlanguage_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3219 Vlanguage_unicode_precedence_list = Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3220
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3221 staticpro (&Vdefault_unicode_precedence_list);
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3222 Vdefault_unicode_precedence_list = Qnil;
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3223
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3224 unicode_precedence_dynarr = Dynarr_new (Lisp_Object);
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3225 dump_add_root_block_ptr (&unicode_precedence_dynarr,
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3226 &lisp_object_dynarr_description);
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3227
3659 98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3228
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3229
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3230 init_blank_unicode_tables ();
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3231
3439 d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	3232 staticpro (&Vcurrent_jit_charset);
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	3233 Vcurrent_jit_charset = Qnil;
d1754e7f0cea [xemacs-hg @ 2006-06-03 17:50:39 by aidan] aidan parents: 3352 diff changeset	3234
2367 ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3235 /* Note that the "block" we are describing is a single pointer, and hence
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3236 we could potentially use dump_add_root_block_ptr(). However, given
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3237 the way the descriptions are written, we couldn't use them, and would
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3238 have to write new descriptions for each of the pointers below, since
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3239 we would have to make use of a description with an XD_BLOCK_ARRAY
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3240 in it. */
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3241
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3242 dump_add_root_block (&to_unicode_blank_1, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3243 to_unicode_level_1_desc_1);
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3244 dump_add_root_block (&to_unicode_blank_2, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3245 to_unicode_level_2_desc_1);
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3246
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3247 dump_add_root_block (&from_unicode_blank_1, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3248 from_unicode_level_1_desc_1);
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3249 dump_add_root_block (&from_unicode_blank_2, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3250 from_unicode_level_2_desc_1);
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3251 dump_add_root_block (&from_unicode_blank_3, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3252 from_unicode_level_3_desc_1);
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3253 dump_add_root_block (&from_unicode_blank_4, sizeof (void *),
ecf1ebac70d8 [xemacs-hg @ 2004-11-04 23:05:23 by ben] ben parents: 2333 diff changeset	3254 from_unicode_level_4_desc_1);
3659 98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3255
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3256 DEFVAR_LISP ("unicode-registries", &Qunicode_registries /*
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3257 Vector describing the X11 registries searched when using fallback fonts.
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3258
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3259 "Fallback fonts" here includes by default those fonts used by redisplay when
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3260 displaying charsets for which the `encode-as-utf-8' property is true, and
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3261 those used when no font matching the charset's registries property has been
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3262 found (that is, they're probably Mule-specific charsets like Ethiopic or
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3263 IPA.)
98af8a976fc3 [xemacs-hg @ 2006-11-05 22:31:31 by aidan] aidan parents: 3452 diff changeset	3264 */ );
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3265 Qunicode_registries = vector1(build_ascstring("iso10646-1"));
4690 257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3266
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3267 /* Initialised in lisp/mule/general-late.el, by a call to
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3268 #'set-unicode-query-skip-chars-args. Or at least they would be, but we
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3269 can't do this at dump time right now, initialised range tables aren't
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3270 dumped properly. */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3271 staticpro (&Vunicode_invalid_and_query_skip_chars);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3272 Vunicode_invalid_and_query_skip_chars = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3273 staticpro (&Vutf_8_invalid_and_query_skip_chars);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3274 Vutf_8_invalid_and_query_skip_chars = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3275 staticpro (&Vunicode_query_skip_chars);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3276 Vunicode_query_skip_chars = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3277
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3278 /* If we could dump the range table above these wouldn't be necessary: */
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3279 staticpro (&Vunicode_query_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3280 Vunicode_query_string = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3281 staticpro (&Vunicode_invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3282 Vunicode_invalid_string = Qnil;
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3283 staticpro (&Vutf_8_invalid_string);
257b468bf2ca Move the #'query-coding-region implementation to C. Aidan Kehoe <kehoea@parhasard.net> parents: 4688 diff changeset	3284 Vutf_8_invalid_string = Qnil;
771 943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3285 #endif /* MULE */
943eaba38521 [xemacs-hg @ 2002-03-13 08:51:24 by ben] ben parents: diff changeset	3286 }
4834 b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3287
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3288 void
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3289 complex_vars_of_unicode (void)
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3290 {
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3291 /* We used to define this in unicode.el. But we need it early for
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3292 Cygwin 1.7 -- used in LOCAL_FILE_FORMAT_TO_TSTR() et al. */
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3293 Fmake_coding_system_internal
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3294 (Qutf_8, Qunicode,
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3295 build_defer_string ("UTF-8"),
4834 b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3296 nconc2 (list4 (Qdocumentation,
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3297 build_defer_string (
4834 b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3298 "UTF-8 Unicode encoding -- ASCII-compatible 8-bit variable-width encoding\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3299 "sharing the following principles with the Mule-internal encoding:\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3300 "\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3301 " -- All ASCII characters (codepoints 0 through 127) are represented\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3302 " by themselves (i.e. using one byte, with the same value as the\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3303 " ASCII codepoint), and these bytes are disjoint from bytes\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3304 " representing non-ASCII characters.\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3305 "\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3306 " This means that any 8-bit clean application can safely process\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3307 " UTF-8-encoded text as it were ASCII, with no corruption (e.g. a\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3308 " '/' byte is always a slash character, never the second byte of\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3309 " some other character, as with Big5, so a pathname encoded in\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3310 " UTF-8 can safely be split up into components and reassembled\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3311 " again using standard ASCII processes).\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3312 "\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3313 " -- Leading bytes and non-leading bytes in the encoding of a\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3314 " character are disjoint, so moving backwards is easy.\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3315 "\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3316 " -- Given only the leading byte, you know how many following bytes\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3317 " are present.\n"
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3318 ),
4952 19a72041c5ed Mule-izing, various fixes related to char * arguments Ben Wing <ben@xemacs.org> parents: 4834 diff changeset	3319 Qmnemonic, build_ascstring ("UTF8")),
4834 b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3320 list2 (Qunicode_type, Qutf_8)));
b3ea9c582280 Use new cygwin_conv_path API with Cygwin 1.7 for converting names between Win32 and POSIX, UTF-8-aware, with attendant changes elsewhere Ben Wing <ben@xemacs.org> parents: 4824 diff changeset	3321 }

Mercurial > hg > xemacs-beta

annotate src/unicode.c @ 4952:19a72041c5ed